I am almost doing same thing i.e. to give the values left unparsed a certain name - &#39;NIL&#39;, and currently I&#39;m redirecting output to a text file. Searching for &#39;NIL&#39; tells me where my match failed, although writing it seperately to a different file dint occurred to me. And yes the job is to reduce as much manual work as possible, I got it now. Thanks for the help :)<br>
<br>~Shashwat<br><br><div class="gmail_quote">On Sun, Jan 3, 2010 at 8:24 PM, Alan Gauld <span dir="ltr">&lt;<a href="mailto:alan.gauld@btinternet.com">alan.gauld@btinternet.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
<div class="im">&quot;Shashwat Anand&quot; &lt;<a href="mailto:anand.shashwat@gmail.com" target="_blank">anand.shashwat@gmail.com</a>&gt; wrote<br>
<br>
</div><div class="im"><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
as to match all of them. The task is time-consuming but with every new<br>
test-sets exceptions are becoming less and less. (There are .2 million such<br>
pages)<br>
</blockquote>
<br></div>
One final thing to try is to identify records where you *failed* to find<br>
a match and re write them into an error file. The error file can then<br>
be manually processed if need be.<br>
<br>
You might also be able to clean up the error file by not writing lines<br>
that you know to be non-useful. The resultant error file might then<br>
show up some further patterns that you can exploit.<br>
<br>
Its all about eliminating as much manual effort as possible and<br>
making the manual work that is left over as easy as possible.<br>
ie Accept that you won&#39;t ever get 100% success and aim to<br>
minimise the pain as much as possible.<div class="im"><br>
<br>
<br>
HTH,<br>
<br>
<br>
-- <br>
Alan Gauld<br>
Author of the Learn to Program web site<br>
<a href="http://www.alan-g.me.uk/" target="_blank">http://www.alan-g.me.uk/</a> <br>
<br></div><div><div></div><div class="h5">
_______________________________________________<br>
Tutor maillist  -  <a href="mailto:Tutor@python.org" target="_blank">Tutor@python.org</a><br>
To unsubscribe or change subscription options:<br>
<a href="http://mail.python.org/mailman/listinfo/tutor" target="_blank">http://mail.python.org/mailman/listinfo/tutor</a><br>
</div></div></blockquote></div><br>