<div dir="auto">G Reina <div dir="auto">you make a bizarre argument. You argue that you should not even check racism as a possible factor in house prices? <div dir="auto"><span style="color:rgba(0,0,0,0.7);font-family:georgia,serif;font-size:16px;background-color:rgb(255,255,255)"><br></span></div><div dir="auto"><span style="color:rgba(0,0,0,0.7);font-family:georgia,serif;font-size:16px;background-color:rgb(255,255,255)">But then you yourself check whether its relevant </span></div><div dir="auto"><span style="color:rgba(0,0,0,0.7);font-family:georgia,serif;font-size:16px;background-color:rgb(255,255,255)">Then you say </span></div><div dir="auto"><span style="color:rgba(0,0,0,0.7);font-family:georgia,serif;font-size:16px;background-color:rgb(255,255,255)"><br></span></div><div dir="auto"><span style="color:rgba(0,0,0,0.7);font-family:georgia,serif;font-size:16px;background-color:rgb(255,255,255)">"but I'd argue that it's more due to the location (near water, near businesses, near restaurants, near parks and recreation) than to the ethnic makeup" </span></div><div dir="auto"><span style="color:rgba(0,0,0,0.7);font-family:georgia,serif;font-size:16px;background-color:rgb(255,255,255)"><br></span></div><div dir="auto"><span style="color:rgba(0,0,0,0.7);font-family:georgia,serif;font-size:16px;background-color:rgb(255,255,255)">Which  was basically what  the original authors wanted to show too,</span></div><div dir="auto"><span style="color:rgba(0,0,0,0.7);font-family:georgia,serif;font-size:16px;background-color:rgb(255,255,255)"><br></span></div><div dir="auto"><span style="font-family:"times new roman";font-size:medium">Harrison, D. and Rubinfeld, D.L. `</span><cite style="font-family:"times new roman";font-size:medium">Hedonic prices and the demand for clean air</cite><span style="font-family:"times new roman";font-size:medium">', J. Environ. Economics & Management, vol.5, 81-102, 1978.</span><span style="color:rgba(0,0,0,0.7);font-family:georgia,serif;font-size:16px;background-color:rgb(255,255,255)"><br></span></div><div dir="auto"><span style="font-family:"times new roman";font-size:medium"><br></span></div><div dir="auto"><span style="color:rgba(0,0,0,0.7);font-family:georgia,serif;font-size:16px;background-color:rgb(255,255,255)"> but unless you measure ethnic make-up you cannot show that it is not a confounder. </span></div><div dir="auto"><span style="color:rgba(0,0,0,0.7);font-family:georgia,serif;font-size:16px;background-color:rgb(255,255,255)"><br></span></div><div dir="auto"><span style="color:rgba(0,0,0,0.7);font-family:georgia,serif;font-size:16px;background-color:rgb(255,255,255)">The term "white flight" refers to affluent white families moving to the suburbs.. And clearly a question is whether/how much was racism or avoiding air pollution. </span></div><div dir="auto"><span style="color:rgba(0,0,0,0.7);font-family:georgia,serif;font-size:16px;background-color:rgb(255,255,255)"><br></span></div><div dir="auto"><br></div><div dir="auto"><span style="color:rgba(0,0,0,0.7);font-family:georgia,serif;font-size:16px;background-color:rgb(255,255,255)"><br></span></div><div dir="auto"><span style="color:rgba(0,0,0,0.7);font-family:georgia,serif;font-size:16px;background-color:rgb(255,255,255)"><br></span></div></div></div><div class="gmail_extra"><br><div class="gmail_quote">On 6 Jul 2017 6:10 pm, "G Reina" <<a href="mailto:greina@eng.ucsd.edu">greina@eng.ucsd.edu</a>> wrote:<br type="attribution"><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr"><div><div><div><div><div>I'd like to request that the "Boston Housing Prices" dataset in sklearn (sklearn.datasets.load_boston) be replaced with the "Ames Housing Prices" dataset (<a href="https://ww2.amstat.org/publications/jse/v19n3/decock.pdf" target="_blank">https://ww2.amstat.org/<wbr>publications/jse/v19n3/decock.<wbr>pdf</a>). I am willing to submit the code change if the developers agree.<br><br></div>The Boston dataset has the feature "Bk is the proportion
of blacks in town". It is an incredibly racist "feature" to include in any dataset. I think is beneath us as data scientists.<br><br></div>I submit that the Ames dataset is a viable alternative for learning regression. The author has shown that the dataset is a more robust replacement for Boston. Ames is a 2011 regression dataset on housing prices and has more than 5 times the amount of training examples with over 7 times as many features (none of which are morally questionable). <br><br></div>I welcome the community's thoughts on the matter.<br><br></div>Thanks.<br></div>-Tony<br><br>Here's an article I wrote on the Boston dataset:<br><a href="https://www.linkedin.com/pulse/hidden-racism-data-science-g-anthony-reina?trk=v-feed&lipi=urn%3Ali%3Apage%3Ad_flagship3_feed%3Bmu67f2GSzj5xHMpSD6M00A%3D%3D" target="_blank">https://www.linkedin.com/<wbr>pulse/hidden-racism-data-<wbr>science-g-anthony-reina?trk=v-<wbr>feed&lipi=urn%3Ali%3Apage%3Ad_<wbr>flagship3_feed%<wbr>3Bmu67f2GSzj5xHMpSD6M00A%3D%3D</a><br><br></div>
<br>______________________________<wbr>_________________<br>
scikit-learn mailing list<br>
<a href="mailto:scikit-learn@python.org">scikit-learn@python.org</a><br>
<a href="https://mail.python.org/mailman/listinfo/scikit-learn" rel="noreferrer" target="_blank">https://mail.python.org/<wbr>mailman/listinfo/scikit-learn</a><br>
<br></blockquote></div></div>