<div dir="ltr"><div><div><div><div>The result of a quick bit of hacking yesterday, pandawash is an IPython extension to help clean up messy data in pandas dataframes.<br><br></div>The key feature is that it generates plain Python code which you modify to do the data cleanup. For instance, you can use it to check that the values in a numeric column are within a specified range. If any values are outside that, it will create a new cell with the necessary code to replace them; you just set the replacement values and run the cell. This is more convenient than finding those values and writing the code yourself, but it leaves you with full control and a clear record of the changes, unlike more automatic data cleaning.<br>

<br></div>Demo:<br><a href="http://nbviewer.ipython.org/github/takluyver/pandawash/blob/master/Pandawash%20Demo.ipynb">http://nbviewer.ipython.org/github/takluyver/pandawash/blob/master/Pandawash%20Demo.ipynb</a><br><br>
</div>
Source code:<br><a href="https://github.com/takluyver/pandawash">https://github.com/takluyver/pandawash</a><br><br></div>Thanks,<br>Thomas<br></div>