<div dir="ltr"><div class="gmail_default" style="font-size:small">Most of those are not talking about the ethical issues of the dataset. Let's talk about the alternatives we have:</div><div class="gmail_default" style="font-size:small"><br></div><div class="gmail_default" style="font-size:small">Keep the loader, but raise a warning:</div><div class="gmail_default" style="font-size:small">- this will result in most people not changing their code/material, and IMO mostly ignore the warning. Some</div><div class="gmail_default" style="font-size:small">people may see the warning and care about it.</div><div class="gmail_default" style="font-size:small"><br></div><div class="gmail_default" style="font-size:small">Deprecate, and point them to an alternative dataset, and if they really really want the same dataset, point them</div><div class="gmail_default" style="font-size:small">to the openml ID:</div><div class="gmail_default" style="font-size:small">- People will have to change something, and if we give them a nice copy/paste-able alternative which is not boston,</div><div class="gmail_default" style="font-size:small">they'll use that instead.</div><div class="gmail_default" style="font-size:small">- Some people will keep using boston from openml, and not care about the ethical implications</div><div class="gmail_default" style="font-size:small"><br></div><div class="gmail_default" style="font-size:small">As an addition, we can keep the load_boston in the docs only, and point users to alternatives even after removing</div><div class="gmail_default" style="font-size:small">the loader.<br></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Wed, Oct 14, 2020 at 10:11 AM Olivier Grisel <<a href="mailto:olivier.grisel@ensta.org">olivier.grisel@ensta.org</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">Le mar. 13 oct. 2020 à 16:19, Adrin <<a href="mailto:adrin.jalali@gmail.com" target="_blank">adrin.jalali@gmail.com</a>> a écrit :<br>
><br>
> Isn't the Boston dataset available through openml? Maybe here: <a href="https://www.openml.org/d/531" rel="noreferrer" target="_blank">https://www.openml.org/d/531</a><br>
><br>
> I'm happy to have the dataset out there on opemml, and for any material that addresses some of the issues with it.<br>
> But for educational purposes, we don't need to have the dataset in the package as long as users can still download it<br>
> with a oneliner using fetch_openml.<br>
<br>
That would be an argument in favor of deprecation warning with a<br>
message stating the motivation for deprecation and pointing to<br>
fetch_openml.<br>
<br>
However it's going to break examples written in slow to update<br>
tutorials or book once the deprecation period is over. But one could<br>
argue that this is also the case for any other deprecation in<br>
scikit-learn. It's just that sklearn.datasets.load_boston is used A<br>
LOT: <a href="https://github.com/search?q=load_boston&type=code" rel="noreferrer" target="_blank">https://github.com/search?q=load_boston&type=code</a><br>
<br>
-- <br>
Olivier<br>
_______________________________________________<br>
scikit-learn mailing list<br>
<a href="mailto:scikit-learn@python.org" target="_blank">scikit-learn@python.org</a><br>
<a href="https://mail.python.org/mailman/listinfo/scikit-learn" rel="noreferrer" target="_blank">https://mail.python.org/mailman/listinfo/scikit-learn</a><br>
</blockquote></div>