<div dir="ltr"><a href="http://contrib.scikit-learn.org/imbalanced-learn/">http://contrib.scikit-learn.org/imbalanced-learn/</a> might be of interest to you.<br></div><div class="gmail_extra"><br><div class="gmail_quote">On 14 November 2016 at 22:14, Thomas Evangelidis <span dir="ltr"><<a href="mailto:tevang3@gmail.com" target="_blank">tevang3@gmail.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr"><div class="gmail_default" style="font-size:small;color:rgb(0,0,0)">Greetings,</div><div class="gmail_default" style="font-size:small;color:rgb(0,0,0)"><br></div><div class="gmail_default" style="font-size:small;color:rgb(0,0,0)">I want to design a program that can deal with classification problems of the same type, where the  number of positive observations is small but the number of negative much larger. Speaking with numbers, the number of positive observations could range usually between 2 to 20 and the number of negative could be at least x30 times larger. The number of features could be between 2 and 20 too, but that could be reduced using feature selection and elimination algorithms. I 've read in the documentation that some algorithms like the <span id="m_92226069053567465:4n8.1">SVM</span> are still effective when the number of dimensions is greater than the number of samples, but I am not sure if they are suitable for my case. Moreover, according to this Figure, the Nearest <span id="m_92226069053567465:4n8.2">Neighbors</span> is the best and second is the <span id="m_92226069053567465:4n8.3">RBF</span> <span id="m_92226069053567465:4n8.4">SVM</span>:</div><div class="gmail_default" style="font-size:small;color:rgb(0,0,0)"><br></div><div class="gmail_default"><font color="#000000">http://<span id="m_92226069053567465:4n8.5">scikit</span>-<a href="http://learn.org/stable/_images/" target="_blank">learn.org/<wbr>stable/_images/</a><span id="m_92226069053567465:4n8.6">sphx</span>_<span id="m_92226069053567465:4n8.7">glr</span>_plot_<wbr>classifier_comparison_001.<span id="m_92226069053567465:4n8.8">png</span></font><br></div><div class="gmail_default"><font color="#000000"><br></font></div><div class="gmail_default"><font color="#000000">However, I assume that </font><span style="color:rgb(0,0,0)">Nearest <span id="m_92226069053567465:4n8.9">Neighbors</span> would not be effective in my case where the number of positive observations is very low. For these reasons I would like to know your expert opinion about which classification algorithm should I try first.</span></div><div class="gmail_default"><span style="color:rgb(0,0,0)"><br></span></div><div class="gmail_default"><span style="color:rgb(0,0,0)">thanks in advance</span></div><div class="gmail_default"><span style="color:rgb(0,0,0)">Thomas</span></div><div class="gmail_default" style="font-size:small;color:rgb(0,0,0)"><br></div><div><br></div>-- <br><div class="m_92226069053567465gmail_signature"><div dir="ltr"><div><div>


<p style="margin-bottom:0cm" align="LEFT"><span style="font-family:arial,helvetica,sans-serif"><font size="2">==============================<wbr>==============================<wbr>==========</font></span></p>

<p style="margin-bottom:0cm" align="LEFT"><span style="font-family:arial,helvetica,sans-serif"><font size="2">Thomas <span id="m_92226069053567465:4n8.10">Evangelidis</span></font></span></p>

<p style="margin-bottom:0cm" align="LEFT"><span style="font-family:arial,helvetica,sans-serif"><font size="2">Research Specialist<br></font></span></p><span style="font-family:arial,helvetica,sans-serif"><font size="2"><span style="color:rgb(0,0,0)"><span id="m_92226069053567465:4n8.11">CEITEC</span> - Central European Institute of Technology<br>Masaryk University<br><span id="m_92226069053567465:4n8.12">Kamenice</span> 5/A35/1S081, <br>62500 Brno, Czech Republic <br></span></font></span></div><div dir="ltr"><br><p style="margin-bottom:0cm" align="LEFT"><span style="font-family:arial,helvetica,sans-serif"><font size="2">email: <a href="mailto:tevang@pharm.uoa.gr" target="_blank"><span id="m_92226069053567465:4n8.13">tevang</span>@<span id="m_92226069053567465:4n8.14">pharm</span>.<span id="m_92226069053567465:4n8.15">uoa</span>.gr</a></font></span></p>

<p style="margin-bottom:0cm" align="LEFT"><span style="font-family:arial,helvetica,sans-serif"><font size="2">               <a href="mailto:tevang3@gmail.com" target="_blank">tevang3@gmail.com</a></font></span></p>

<p style="margin-bottom:0cm" align="LEFT"><span style="font-family:arial,helvetica,sans-serif"><font size="2"><br>website:

<a href="https://sites.google.com/site/thomasevangelidishomepage/" target="_blank"><span id="m_92226069053567465:4n8.16">https</span>://sites.google.com/site/<span id="m_92226069053567465:4n8.17"><wbr>thomasevangelidishomepage</span>/</a></font></span></p><br><p style="margin-bottom:0cm" align="LEFT">

</p>

</div></div></div></div>

</div>

<br>______________________________<wbr>_________________<br>

scikit-learn mailing list<br>

<a href="mailto:scikit-learn@python.org">scikit-learn@python.org</a><br>

<a href="https://mail.python.org/mailman/listinfo/scikit-learn" rel="noreferrer" target="_blank">https://mail.python.org/<wbr>mailman/listinfo/scikit-learn</a><br>

<br></blockquote></div><br></div>