<table cellspacing="0" cellpadding="0" border="0" ><tr><td valign="top" style="font: inherit;">BeautifulSoup is the standard response.<br>I think lxml will not work very well unless the<br>html is extremely nicely formatted, but I could<br>be wrong.<br><br>For what you describe I would suggest developing<br>seat-of-the-pants heuristics -- just get the page<br>using httplib and then use string.find liberally.<br>I've had at least three consulting gigs solving<br>this problems using various techniques and the general<br>problem is quite difficult, but if you are trying to<br>parse just a few pages in simple ways developing<br>special purpose heuristics is pretty easy (until they<br>redesign the pages, which they will do every so often).<br><br>Best of luck, -- Aaron Watters<br><br>btw: If you have lots of money to spend on this<br>&nbsp; my former client connotate.com does this sort<br>&nbsp; of scraping (and I developed some of the code).<br><br>--- On
 <b>Mon, 2/21/11, James Mills <i>&lt;prologic@shortcircuit.net.au&gt;</i></b> wrote:<br><blockquote style="border-left: 2px solid rgb(16, 16, 255); margin-left: 5px; padding-left: 5px;"><br>From: James Mills &lt;prologic@shortcircuit.net.au&gt;<br>Subject: Re: [Web-SIG] Extracting web data<br>To: "web-sig" &lt;web-sig@python.org&gt;<br>Date: Monday, February 21, 2011, 7:07 PM<br><br><div id="yiv1177080772"><div class="yiv1177080772gmail_quote">On Mon, Feb 21, 2011 at 2:21 PM, Deb Midya <span dir="ltr">&lt;<a rel="nofollow" ymailto="mailto:debmidya@yahoo.com" target="_blank" href="/mc/compose?to=debmidya@yahoo.com">debmidya@yahoo.com</a>&gt;</span> wrote:<br><blockquote class="yiv1177080772gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">

<table border="0" cellpadding="0" cellspacing="0"><tbody><tr><td style="font: inherit;" valign="top"><div>Hi Python web-sig users,</div>
<div>&nbsp;</div>
<div>Thanks in advance and I am new to web-sig.</div>
<div>&nbsp;</div>
<div>I am using Python 2.6 on Windows XP.</div>
<div>&nbsp;</div>
<div>May I request you to assist me for the following please.</div>
<div>&nbsp;</div>
<div>I like to extract web data from the site (<a rel="nofollow" target="_blank" href="http://finance.yahoo.com/">http://finance.yahoo.com</a>, for example).</div>
<div>&nbsp;</div>
<div>The data may include Historical Prices, Key Statistics, News &amp; Info, Headlines, etc. for a list of codes (such WOW, .... these are codes for company Ids). </div>
<div>&nbsp;</div>
<div>I am trying to automate the extraction of data.</div>
<div>&nbsp;</div>
<div>Is there any Python module or any assistance please?</div>
<div>&nbsp;</div>
<div>Once again, thank you very much for the time you have given.</div></td></tr></tbody></table></blockquote><div><br></div><div>You might want to look into using either</div><div>the lxml or BeautifulSoup modules.</div>

<div><br></div><div>cheers</div><div>James</div></div><br>-- <br>-- James Mills<br>--<br>-- "Problems are solved by method"<br>
</div><br>-----Inline Attachment Follows-----<br><br><div class="plainMail">_______________________________________________<br>Web-SIG mailing list<br><a ymailto="mailto:Web-SIG@python.org" href="/mc/compose?to=Web-SIG@python.org">Web-SIG@python.org</a><br>Web SIG: <a href="http://www.python.org/sigs/web-sig" target="_blank">http://www.python.org/sigs/web-sig</a><br>Unsubscribe: <a href="http://mail.python.org/mailman/options/web-sig/arw1961%40yahoo.com" target="_blank">http://mail.python.org/mailman/options/web-sig/arw1961%40yahoo.com</a><br></div></blockquote></td></tr></table>