<div dir="ltr">Hi Debu,<div><br></div><div>Your post is terminologically confusing, so I'm not sure I've understood your problem. Where is the "different sample" used for scoring coming from? Is it possible it is more related to the training data than the test sample?</div><div><br></div><div>Joel</div></div><div class="gmail_extra"><br><div class="gmail_quote">On 27 December 2016 at 05:28, Debabrata Ghosh <span dir="ltr"><<a href="mailto:mailfordebu@gmail.com" target="_blank">mailfordebu@gmail.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr">

<p class="MsoNormal">Dear All,</p>

<p class="MsoNormal"><span>                              <wbr>  </span>Greetings!</p>

<p class="MsoNormal"><span>                              <wbr>  </span>I
need some urgent guidance and help from you all in model scoring. What I mean
by model scoring is around the following steps:</p><p class="MsoNormal"><br></p>

<ol start="1" style="margin-top:0in" type="1"><li class="MsoNormal">I have trained a Random
     Classifier model using scikit-learn (RandomForestClassifier library)</li><li class="MsoNormal">Then I have generated the
     True Positive and False Positive predictions on my test data set using
     predict_proba method (I have splitted my data into training and test
     samples in 80:20 ratio)</li><li class="MsoNormal">Finally, I have dumped the
     model into a pkl file.</li><li class="MsoNormal">Next in another instance,
     I have loaded the .pkl file </li><li class="MsoNormal">I have initiated job_lib.predict_proba
     method for predicting the True Positive and False positives on a different
     sample. I am terming this step as scoring whether I am predicting without
     retraining the model</li></ol>

<p style="margin-left:0.5in" class="MsoNormal"><span>                </span>My
question is when I generate the True Positive Rate on the test data set (as
part of model training approach), the rate which I am getting is 10 – 12%. But
when I do the scoring (using the steps mentioned above), my True Positive Rate
is shooting high upto 80%. Although, I am happy to get a very high TPR but my
question is whether getting such a high TPR during the scoring phase is an
expected outcome? In other words, whether achieving a high TPR through joblib
is an accepted outcome vis-à-vis getting the TPR on training / test data set.</p>

<p style="margin-left:0.5in" class="MsoNormal"><span>                </span>Your
views on the above ask will be really helpful as I am very confused whether to
consider scoring the model using joblib. Otherwise is there any other
alternative to joblib, which can help me to do scoring without retraining the model.
Please let me know as per your earliest convenience as am a bit pressed<br></p>

<p style="margin-left:0.5in" class="MsoNormal"> </p>

<p style="margin-left:0.5in" class="MsoNormal">Thanks for your help in advance!</p>

<p style="margin-left:0.5in" class="MsoNormal"> </p>

<p style="margin-left:0.5in" class="MsoNormal">Cheers,</p>

<p style="margin-left:0.5in" class="MsoNormal">Debu</p>

</div>
<br>______________________________<wbr>_________________<br>
scikit-learn mailing list<br>
<a href="mailto:scikit-learn@python.org">scikit-learn@python.org</a><br>
<a href="https://mail.python.org/mailman/listinfo/scikit-learn" rel="noreferrer" target="_blank">https://mail.python.org/<wbr>mailman/listinfo/scikit-learn</a><br>
<br></blockquote></div><br></div>