<html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:m="http://schemas.microsoft.com/office/2004/12/omml" xmlns="http://www.w3.org/TR/REC-html40"><head><meta http-equiv=Content-Type content="text/html; charset=utf-8"><meta name=Generator content="Microsoft Word 15 (filtered medium)"><!--[if !mso]><style>v\:* {behavior:url(#default#VML);}
o\:* {behavior:url(#default#VML);}
w\:* {behavior:url(#default#VML);}
.shape {behavior:url(#default#VML);}
</style><![endif]--><style><!--
/* Font Definitions */
@font-face
        {font-family:"Cambria Math";
        panose-1:2 4 5 3 5 4 6 3 2 4;}
@font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}
/* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0cm;
        margin-bottom:.0001pt;
        font-size:11.0pt;
        font-family:"Calibri",sans-serif;}
a:link, span.MsoHyperlink
        {mso-style-priority:99;
        color:blue;
        text-decoration:underline;}
a:visited, span.MsoHyperlinkFollowed
        {mso-style-priority:99;
        color:#954F72;
        text-decoration:underline;}
.MsoChpDefault
        {mso-style-type:export-only;}
@page WordSection1
        {size:612.0pt 792.0pt;
        margin:72.0pt 72.0pt 72.0pt 72.0pt;}
div.WordSection1
        {page:WordSection1;}
--></style></head><body lang=en-FI link=blue vlink="#954F72"><div class=WordSection1><p class=MsoNormal><span lang=FI>Also,<o:p></o:p></span></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>Remember that some algos may exhibit “sweet spots” w.r.t. computation time and gained accuracy.</p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>So you might want to keep measuring “explained variance”, while you add complexity to your models. And then do plots of model complexity vs explained variance.</p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>E.g. in MLPClassifier you’d plot e.g. hidden layers against explained variance to figure out where adding hidden layers starts to exhibit lesser gain in explained variance.</p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>Lähetetty Windows 10:n <a href="https://go.microsoft.com/fwlink/?LinkId=550986">Sähköposti</a>sta</p><p class=MsoNormal><o:p> </o:p></p><div style='mso-element:para-border-div;border:none;border-top:solid #E1E1E1 1.0pt;padding:3.0pt 0cm 0cm 0cm'><p class=MsoNormal style='border:none;padding:0cm'><b>Lähettäjä: </b><a href="mailto:matti.v.viljamaa@gmail.com">Matti Viljamaa</a><br><b>Lähetetty: </b>Friday, 25 January 2019 13.43<br><b>Vastaanottaja: </b><a href="mailto:scikit-learn@python.org">Scikit-learn mailing list</a><br><b>Aihe: </b>VS: [scikit-learn] How to determine suitable cluster algo</p></div><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal><span lang=FI>For determining what one can afford computaionally, see e.g.:<o:p></o:p></span></p><p class=MsoNormal><span lang=FI>https://stackoverflow.com/questions/22443041/predicting-how-long-an-scikit-learn-classification-will-take-to-run<o:p></o:p></span></p><p class=MsoNormal><span lang=FI><a href="https://www.reddit.com/r/scikit_learn/comments/a746h0/is_there_any_way_to_estimate_how_long_a_given/">https://www.reddit.com/r/scikit_learn/comments/a746h0/is_there_any_way_to_estimate_how_long_a_given/</a><o:p></o:p></span></p><p class=MsoNormal><span lang=en-FI><o:p> </o:p></span></p><p class=MsoNormal><span lang=en-FI>Lähetetty Windows 10:n <a href="https://go.microsoft.com/fwlink/?LinkId=550986">Sähköposti</a>sta<o:p></o:p></span></p><p class=MsoNormal><span lang=en-FI><o:p> </o:p></span></p><div style='border:none;border-top:solid #E1E1E1 1.0pt;padding:3.0pt 0cm 0cm 0cm'><p class=MsoNormal><b><span lang=en-FI>Lähettäjä: </span></b><span lang=en-FI><a href="mailto:pahome.chen@mirlab.org">lampahome</a><br><b>Lähetetty: </b>Friday, 25 January 2019 3.42<br><b>Vastaanottaja: </b><a href="mailto:scikit-learn@python.org">Scikit-learn mailing list</a><br><b>Aihe: </b>Re: [scikit-learn] How to determine suitable cluster algo<o:p></o:p></span></p></div><p class=MsoNormal><span lang=en-FI><o:p> </o:p></span></p><div><p class=MsoNormal><span lang=en-FI>Maybe the suitable way is try-and-error?<o:p></o:p></span></p><div><p class=MsoNormal><span lang=en-FI><o:p> </o:p></span></p></div><div><p class=MsoNormal><span lang=en-FI>What I'm interesting is that my datasets is very huge and I can't try number of cluster from 1 to N if I have N samples<o:p></o:p></span></p></div><div><p class=MsoNormal><span lang=en-FI>That cost too much time for me.<o:p></o:p></span></p></div><div><p class=MsoNormal><span lang=en-FI><o:p> </o:p></span></p></div><div><p class=MsoNormal><span lang=en-FI>Maybe I should define the initial number of cluster based on execution time?<o:p></o:p></span></p></div><div><p class=MsoNormal><span lang=en-FI><o:p> </o:p></span></p></div><div><p class=MsoNormal><span lang=en-FI>Then analyze the next step is increase/decrease the number of cluster?<o:p></o:p></span></p></div><div><p class=MsoNormal><span lang=en-FI><o:p> </o:p></span></p></div></div><p class=MsoNormal><span lang=en-FI>thx<o:p></o:p></span></p><p class=MsoNormal><span lang=en-FI><o:p> </o:p></span></p><div id=DAB4FAD8-2DD7-40BB-A1B8-4E2AA1F9FDF2><p class=MsoNormal><span lang=en-FI><o:p> </o:p></span></p><table class=MsoNormalTable border=1 cellpadding=0 style='border:none;border-top:solid #D3D4DE 1.0pt'><tr><td width=55 style='width:41.25pt;border:none;padding:9.75pt .75pt .75pt .75pt'><p class=MsoNormal><a href="https://www.avast.com/sig-email?utm_medium=email&utm_source=link&utm_campaign=sig-email&utm_content=emailclient" target="_blank"><span style='text-decoration:none'><img border=0 width=46 height=29 style='width:.4791in;height:.302in' id="_x0000_i1025" src="https://ipmcdn.avast.com/images/icons/icon-envelope-tick-round-orange-animated-no-repeat-v1.gif" alt="https://ipmcdn.avast.com/images/icons/icon-envelope-tick-round-orange-animated-no-repeat-v1.gif"></span></a><o:p></o:p></p></td><td width=470 style='width:352.5pt;border:none;padding:9.0pt .75pt .75pt .75pt'><p class=MsoNormal style='line-height:13.5pt'><span style='font-size:10.0pt;font-family:"Arial",sans-serif;color:#41424E'>Virus-free. <a href="https://www.avast.com/sig-email?utm_medium=email&utm_source=link&utm_campaign=sig-email&utm_content=emailclient" target="_blank"><span style='color:#4453EA'>www.avast.com</span></a> <o:p></o:p></span></p></td></tr></table></div><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal><o:p> </o:p></p></div></body></html>