<br><br><div class="gmail_quote">On Mon, May 18, 2009 at 1:59 PM, Jeremiah Dodds <span dir="ltr"><<a href="mailto:jeremiah.dodds@gmail.com">jeremiah.dodds@gmail.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
<br><br><div class="gmail_quote"><div class="im">On Sat, May 16, 2009 at 2:18 PM, S.Selvam <span dir="ltr"><<a href="mailto:s.selvamsiva@gmail.com" target="_blank">s.selvamsiva@gmail.com</a>></span> wrote:<br></div>
<blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;"><div><div></div><div class="h5">
Hi all,<br><br>I have to design web parser which will visit the given list of websites and need to fetch a particular set of details.<br>It has to be so generic that even if we add new websites, it must fetch those details if available anywhere.<br>



So it must be something like a framework.<br><br>Though i have done some parsers ,but they will parse for a given format(For. eg It will get the data from <title> tag).But here each website may have different format and the information may available within any tags.<br>


<br>I know its a tough task for me,but i feel with python it should be possible.<br>My request is, if such thing is already available please let me know ,also your suggestions are welcome.<br>
<br>Note: I planned to use BeautifulSoup for parsing.<br clear="all"><br>-- <br>Yours,<br><font color="#888888">S.Selvam<br>
</font><br></div></div><div class="im">--<br>
<a href="http://mail.python.org/mailman/listinfo/python-list" target="_blank">http://mail.python.org/mailman/listinfo/python-list</a><br>
<br></div></blockquote></div><br>I'd recommend mechanize in combination with BeautifulSoup - it greatly simplifies most web-scraping tasks.<br>
<br>--<br>
<a href="http://mail.python.org/mailman/listinfo/python-list" target="_blank">http://mail.python.org/mailman/listinfo/python-list</a><br>
<br></blockquote></div><br><br clear="all">Thank you all for your response,<br><br>I have started to develop my design based on BeautifulSoup,i planned to write separate module for each information which i would like to extract from the website and through the url at it.It has to extract the required information if available.<br>
<br>Each module tries with pattern matching and returns the result.<br><br>I planned to write it in a generic way.I welcome your suggestions.<br>-- <br>Yours,<br>S.Selvam<br>