<div dir="ltr">I think StandardScaller is what you want. For each assay you will get mean and var. Average mean would be the "optimal" shift and average variance the spread. But would this value make any physical sense? <div><br></div><div>Considering the RF-Score-VS: In fact it's a regressor and it predicts a real value, not a class. Although it is validated mostly using Enrichment Factor, the last figure shows top results for regression vs Vina.</div></div><div class="gmail_extra"><br clear="all"><div><div class="gmail_signature" data-smartmail="gmail_signature">----<br>Pozdrawiam,  |  Best regards,<br>Maciek Wójcikowski<br><a href="mailto:maciek@wojcikowski.pl" target="_blank">maciek@wojcikowski.pl</a><br></div></div>
<br><div class="gmail_quote">2017-09-06 20:48 GMT+02:00 Thomas Evangelidis <span dir="ltr"><<a href="mailto:tevang3@gmail.com" target="_blank">tevang3@gmail.com</a>></span>:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr"><div class="gmail_default" style="font-size:large;color:rgb(0,0,0)">​​</div><div class="gmail_default"><font size="4" color="#000000">After some though about this problem today, I think it is<span style="background-color:rgba(252,251,248,0.9);font-family:Arial,"Helvetica Neue",Helvetica,sans-serif"> an objective function minimization problem, when the objective function can be the root mean square deviation (RMSD) between the affinities of the common molecules in the two data sets. I could work iteratively, first rescale and fit assay B to match A, then proceed to assay C and so forth. Or alternatively, for each Assay I need to find two missing variables, the optimum shift Sh and the scale Sc. So if I have 3 Assays A, B, C lets say, I am looking for the optimum values of Sh_A, Sc_A, Sh_B, Sc_B, Sh_C, Sc_C that minimize the RMSD between the binding affinities of the overlapping molecules. Any idea how I can do that with scikit-learn?</span></font></div><div><div class="h5"><div class="gmail_default"><font size="4" color="#000000"><span style="background-color:rgba(252,251,248,0.9);font-family:Arial,"Helvetica Neue",Helvetica,sans-serif"><br></span></font></div><div class="gmail_extra"><br><div class="gmail_quote">On 6 September 2017 at 00:29, Thomas Evangelidis <span dir="ltr"><<a href="mailto:tevang3@gmail.com" target="_blank">tevang3@gmail.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr"><div style="font-size:large;color:rgb(0,0,0)">Thanks Jason, Sebastian and Maciek!<br><br></div><div style="font-size:large;color:rgb(0,0,0)">I believe from all the suggestions, the most feasible solutions is to look experimental assays which overlap by at least two compounds, and then adjust the binding affinities of one of them by looking in their difference in both assays. Sebastian mentioned the simplest scenario, where the shift for both compounds is 2 kcal/mol. However, he neglected to mention that the ratio between the affinities of the two compounds in each assay also matters. Specifically, the ratio Ka/Kb=-7/-9=0.78 in assay A but -10/-12=0.83 in assay B. Ideally that should also be taken into account to select the right transformation function for the values from Assay B. Is anybody away of any clever algorithm to select the right transformation function for such a case? I am sure there exists.<br><br></div><div style="font-size:large;color:rgb(0,0,0)">The other approach would be to train different predictors from each assay and then apply a data fusion technique (e.g. min rank). But that wouldn't be that elegant.<br></div><div style="font-size:large;color:rgb(0,0,0)"><br></div><div style="font-size:large;color:rgb(0,0,0)">@Maciek To my understanding, the paper you cited addresses a classification problem (actives, inactives) by implementing Random Forrest Classfiers. My case is a Regression problem.<br></div><div style="font-size:large;color:rgb(0,0,0)"><br><br></div><div style="font-size:large;color:rgb(0,0,0)">best,<br></div><div style="font-size:large;color:rgb(0,0,0)">Thomas<br><br></div></div><div class="m_-15266923109578528HOEnZb"><div class="m_-15266923109578528h5"><div class="gmail_extra"><br><div class="gmail_quote">On 5 September 2017 at 20:33, Maciek Wójcikowski <span dir="ltr"><<a href="mailto:maciek@wojcikowski.pl" target="_blank">maciek@wojcikowski.pl</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr"><div>Hi Thomas and others,</div><div><br></div>It also really depend on how many data points you have on each compound. If you had more than a few then there are few options. If you get two very distinct activities for one ligand. I'd discard such samples as ambiguous or decide on one of the assays/experiments (the one with lower error). The exact problem was faced by PDBbind creators, I'd also look there for details what they did with their activities.<div><div><br></div><div>To follow up Sebastians suggestion: have you checked how different ranks/Z-scores you get? Check out the Kendall Tau.</div><div><br></div><div>Anyhow, you could build local models for a specific experimental methods. In our recent publication on slightly different area (protein-ligand scoring function), we show that the RF build on one target is just slightly better than the RF build on many targets (we've used DUD-E database); Checkout the "horizontal" and "per-target" splits <a href="https://www.nature.com/articles/srep46710" target="_blank">https://www.nature.com/article<wbr>s/srep46710</a>. Unfortunately, this may change for different models. Plus the molecular descriptors used, which we know nothing about. </div><div><br></div><div>I hope that helped a bit.</div></div></div><div class="gmail_extra"><br clear="all"><div><div class="m_-15266923109578528m_-437789101205850877m_2517102582765202576gmail_signature" data-smartmail="gmail_signature">----<br>Pozdrawiam,  |  Best regards,<br>Maciek Wójcikowski<br><a href="mailto:maciek@wojcikowski.pl" target="_blank">maciek@wojcikowski.pl</a><br></div></div><div><div class="m_-15266923109578528m_-437789101205850877h5">
<br><div class="gmail_quote">2017-09-05 19:35 GMT+02:00 Sebastian Raschka <span dir="ltr"><<a href="mailto:se.raschka@gmail.com" target="_blank">se.raschka@gmail.com</a>></span>:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Another approach would be to pose this as a "ranking" problem to predict relative affinities rather than absolute affinities. E.g., if you have data from one (or more) molecules that has/have been tested under 2 or more experimental conditions, you can rank the other molecules accordingly or normalize. E.g. if you observe that the binding affinity of molecule a is -7 kcal/mol in assay A and -9 kcal/mol in assay to, and say the binding affinities of molecule B are -10 and -12 kcal/mol, respectively, that should give you some information for normalizing the values from assay 2 (e.g., by adding 2 kcal/mol). Of course this is not a perfect solution and might be error prone, but so are experimental assays ... (when I sometimes look at the std error/CI of the data I get from collaborators ... well, it seems that absolute binding affinities have always taken with a grain of salt anyway)<br>
<br>
Best,<br>
Sebastian<br>
<div class="m_-15266923109578528m_-437789101205850877m_2517102582765202576HOEnZb"><div class="m_-15266923109578528m_-437789101205850877m_2517102582765202576h5"><br>
> On Sep 5, 2017, at 1:02 PM, Jason Rudy <<a href="mailto:jcrudy@gmail.com" target="_blank">jcrudy@gmail.com</a>> wrote:<br>
><br>
> Thomas,<br>
><br>
> This is sort of related to the problem I did my M.S. thesis on years ago: cross-platform normalization of gene expression data.  If you google that term you'll find some papers.  The situation is somewhat different, though, because with microarrays or RNA-seq you get thousands of data points for each experiment, which makes it easier to estimate the batch effect.  The principle is the similar, however.<br>
><br>
> If I were in your situation, I would consider whether I have any of the following advantages:<br>
><br>
> 1. Some molecules that appear in multiple data sets<br>
> 2. Detailed information about the different experimental conditions<br>
> 3. Physical/chemical models of how experimental conditions influence binding affinity<br>
><br>
> If you have any of the above, you can potentially use them to improve your estimates.  You could also consider using experiment ID as a categorical predictor in a sufficiently general regression method.<br>
><br>
> Lastly, you may already know this, but the term "meta-analysis" is relevant here, and you can google for specific techniques.  Most of these would be more limited than what you are envisioning, I think.<br>
><br>
> Best,<br>
><br>
> Jason<br>
><br>
> On Tue, Sep 5, 2017 at 6:39 AM, Thomas Evangelidis <<a href="mailto:tevang3@gmail.com" target="_blank">tevang3@gmail.com</a>> wrote:<br>
> Greetings,<br>
><br>
> I am working on a problem that involves predicting the binding affinity of small molecules on a receptor structure (is regression problem, not classification). I have multiple small datasets of molecules with measured binding affinities on a receptor, but each dataset was measured in different experimental conditions and therefore I cannot use them all together as trainning set. So, instead of using them individually, I was wondering whether there is a method to combine them all into a super training set. The first way I could think of is to convert the binding affinities to Z-scores and then combine all the small datasets of molecules. But this is would be inaccurate because, firstly the datasets are very small (10-50 molecules each), and secondly, the range of binding affinities differs in each experiment (some datasets contain really strong binders, while others do not, etc.). Is there any other approach to combine datasets with values coming from different sources? Maybe if som<br>
 eone points me to the right reference I could read and understand if it is applicable to my case.<br>
><br>
> Thanks,<br>
> Thomas<br>
><br>
> --<br>
> ==============================<wbr>==============================<wbr>==========<br>
> Dr Thomas Evangelidis<br>
> Post-doctoral Researcher<br>
> CEITEC - Central European Institute of Technology<br>
> Masaryk University<br>
> Kamenice 5/A35/2S049,<br>
> 62500 Brno, Czech Republic<br>
><br>
> email: <a href="mailto:tevang@pharm.uoa.gr" target="_blank">tevang@pharm.uoa.gr</a><br>
>               <a href="mailto:tevang3@gmail.com" target="_blank">tevang3@gmail.com</a><br>
><br>
> website: <a href="https://sites.google.com/site/thomasevangelidishomepage/" rel="noreferrer" target="_blank">https://sites.google.com/site/<wbr>thomasevangelidishomepage/</a><br>
><br>
><br>
><br>
> ______________________________<wbr>_________________<br>
> scikit-learn mailing list<br>
> <a href="mailto:scikit-learn@python.org" target="_blank">scikit-learn@python.org</a><br>
> <a href="https://mail.python.org/mailman/listinfo/scikit-learn" rel="noreferrer" target="_blank">https://mail.python.org/mailma<wbr>n/listinfo/scikit-learn</a><br>
><br>
><br>
> ______________________________<wbr>_________________<br>
> scikit-learn mailing list<br>
> <a href="mailto:scikit-learn@python.org" target="_blank">scikit-learn@python.org</a><br>
> <a href="https://mail.python.org/mailman/listinfo/scikit-learn" rel="noreferrer" target="_blank">https://mail.python.org/mailma<wbr>n/listinfo/scikit-learn</a><br>
<br>
______________________________<wbr>_________________<br>
scikit-learn mailing list<br>
<a href="mailto:scikit-learn@python.org" target="_blank">scikit-learn@python.org</a><br>
<a href="https://mail.python.org/mailman/listinfo/scikit-learn" rel="noreferrer" target="_blank">https://mail.python.org/mailma<wbr>n/listinfo/scikit-learn</a><br>
</div></div></blockquote></div><br></div></div></div>
<br>______________________________<wbr>_________________<br>
scikit-learn mailing list<br>
<a href="mailto:scikit-learn@python.org" target="_blank">scikit-learn@python.org</a><br>
<a href="https://mail.python.org/mailman/listinfo/scikit-learn" rel="noreferrer" target="_blank">https://mail.python.org/mailma<wbr>n/listinfo/scikit-learn</a><br>
<br></blockquote></div><br><br clear="all"><br>-- <br><div class="m_-15266923109578528m_-437789101205850877gmail_signature" data-smartmail="gmail_signature"><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div><div>


        
        
        
        

<p style="margin-bottom:0cm" align="LEFT"><span style="color:rgb(0,0,0)"><span style="font-family:arial,helvetica,sans-serif"><font size="2">==============================<wbr>==============================<wbr>==========</font></span></span></p>
<p style="margin-bottom:0cm" align="LEFT"><span style="color:rgb(0,0,0)"><span style="font-family:arial,helvetica,sans-serif"><font size="2">Dr Thomas Evangelidis</font></span></span></p>
<p style="margin-bottom:0cm" align="LEFT"><span style="color:rgb(0,0,0)"><span style="font-family:arial,helvetica,sans-serif"><font size="2">Post-doctoral Researcher<br></font></span></span></p><span style="color:rgb(0,0,0)"><span style="font-family:arial,helvetica,sans-serif"><font size="2">CEITEC - Central European Institute of Technology<br>Masaryk University<br>Kamenice 5/A35/2S049, <br>62500 Brno, Czech Republic <br></font></span></span></div><div dir="ltr"><span style="color:rgb(0,0,0)"><br></span><p style="margin-bottom:0cm" align="LEFT"><span style="color:rgb(0,0,0)"><span style="font-family:arial,helvetica,sans-serif"><font size="2">email: <a href="mailto:tevang@pharm.uoa.gr" target="_blank">tevang@pharm.uoa.gr</a></font></span></span></p>
<p style="margin-bottom:0cm" align="LEFT"><span style="color:rgb(0,0,0)"><span style="font-family:arial,helvetica,sans-serif"><font size="2">                <a href="mailto:tevang3@gmail.com" target="_blank">tevang3@gmail.com</a></font></span></span></p>
<p style="margin-bottom:0cm" align="LEFT"><span style="color:rgb(0,0,0)"><span style="font-family:arial,helvetica,sans-serif"><font size="2"><br>website:
<a href="https://sites.google.com/site/thomasevangelidishomepage/" target="_blank">https://sites.google.com/site/<wbr>thomasevangelidishomepage/</a></font></span></span></p><span style="color:rgb(0,0,0)"><br></span><p style="margin-bottom:0cm" align="LEFT">
</p>
</div></div></div></div></div></div></div></div>
</div>
</div></div></blockquote></div><br><br clear="all"><div><br></div>-- <br><div class="m_-15266923109578528gmail_signature" data-smartmail="gmail_signature"><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div><div>


        
        
        
        

<p style="margin-bottom:0cm" align="LEFT"><span style="color:rgb(0,0,0)"><span style="font-family:arial,helvetica,sans-serif"><font size="2">==============================<wbr>==============================<wbr>==========</font></span></span></p>
<p style="margin-bottom:0cm" align="LEFT"><span style="color:rgb(0,0,0)"><span style="font-family:arial,helvetica,sans-serif"><font size="2">Dr Thomas Evangelidis</font></span></span></p>
<p style="margin-bottom:0cm" align="LEFT"><span style="color:rgb(0,0,0)"><span style="font-family:arial,helvetica,sans-serif"><font size="2">Post-doctoral Researcher<br></font></span></span></p><span style="color:rgb(0,0,0)"><span style="font-family:arial,helvetica,sans-serif"><font size="2">CEITEC - Central European Institute of Technology<br>Masaryk University<br>Kamenice 5/A35/2S049, <br>62500 Brno, Czech Republic <br></font></span></span></div><div dir="ltr"><span style="color:rgb(0,0,0)"><br></span><p style="margin-bottom:0cm" align="LEFT"><span style="color:rgb(0,0,0)"><span style="font-family:arial,helvetica,sans-serif"><font size="2">email: <a href="mailto:tevang@pharm.uoa.gr" target="_blank">tevang@pharm.uoa.gr</a></font></span></span></p>
<p style="margin-bottom:0cm" align="LEFT"><span style="color:rgb(0,0,0)"><span style="font-family:arial,helvetica,sans-serif"><font size="2">                <a href="mailto:tevang3@gmail.com" target="_blank">tevang3@gmail.com</a></font></span></span></p>
<p style="margin-bottom:0cm" align="LEFT"><span style="color:rgb(0,0,0)"><span style="font-family:arial,helvetica,sans-serif"><font size="2"><br>website:
<a href="https://sites.google.com/site/thomasevangelidishomepage/" target="_blank">https://sites.google.com/site/<wbr>thomasevangelidishomepage/</a></font></span></span></p><span style="color:rgb(0,0,0)"><br></span><p style="margin-bottom:0cm" align="LEFT">
</p>
</div></div></div></div></div></div></div></div>
</div></div></div></div>
<br>______________________________<wbr>_________________<br>
scikit-learn mailing list<br>
<a href="mailto:scikit-learn@python.org">scikit-learn@python.org</a><br>
<a href="https://mail.python.org/mailman/listinfo/scikit-learn" rel="noreferrer" target="_blank">https://mail.python.org/<wbr>mailman/listinfo/scikit-learn</a><br>
<br></blockquote></div><br></div>