<div dir="ltr">Oh geez now I've done it :P <div><br></div><div>Honestly I don't do too much. I had only heard about Nutch once, and when I googled it came across Scrapy. I did have some success with PyQuery like earlier in the year, but I only needed like one thing really and was thinking about the problem in CSS3 style, so it fit. I cannot say much about its performance. I've used lxml for some broken HTML and XML since its forgiving parser is somewhat nice depending on how muddy the water the is, but I don't know how much I could say about these things you couldn't google.</div>

<div><br></div><div>I'll play around and try to come up with something then perhaps heh :P </div></div><div class="gmail_extra"><br><br><div class="gmail_quote">On Tue, Dec 10, 2013 at 5:50 PM, Eric Miller <span dir="ltr"><<a href="mailto:miller.eric.t@gmail.com" target="_blank">miller.eric.t@gmail.com</a>></span> wrote:<br>

<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr">+1, would love to see this.</div><div class="HOEnZb"><div class="h5"><div class="gmail_extra"><br><br><div class="gmail_quote">

On Tue, Dec 10, 2013 at 5:45 PM, Chris Folsom <span dir="ltr"><<a href="mailto:jcfolsom@pureperfect.com" target="_blank">jcfolsom@pureperfect.com</a>></span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div><span style="font-size:10pt;font-family:Verdana"><div><br></div><div>Sounds awesome. I would definitely attend. Currently using Nutch + Regexp.<br>


</div><div><div><div><br></div>
<blockquote style="padding-left:8px;font-size:10pt;margin-left:8px;font-family:verdana;border-left:2px solid blue">
<div>
-------- Original Message --------<br>
Subject: [CentralOH] Screen Scraping Presentation<br>
From: <a href="mailto:jep200404@columbus.rr.com" target="_blank">jep200404@columbus.rr.com</a><br>
Date: Tue, December 10, 2013 5:37 pm<br>
To: "Mailing list for Central Ohio Python User Group (COhPy)"<br>
<<a href="mailto:centraloh@python.org" target="_blank">centraloh@python.org</a>><br>
<br>
On Tue, 10 Dec 2013 17:09:26 -0500, Thomas Winningham <<a href="mailto:winningham@gmail.com" target="_blank">winningham@gmail.com</a>> wrote:<br>
<br>
> Is lxml or pyquery what should be talked about instead of beautiful soup? i<br>
> know lxml has a beautiful soup mode, but CSS3 selectors are so very nice.<br>
<br>
Please give a presentation on other ways of screen scraping <br>
(that might even be better). <br>
<br>
How many other folks would like to see his presentation? <br>
<br>
_______________________________________________<br>
CentralOH mailing list<br>
<a href="mailto:CentralOH@python.org" target="_blank">CentralOH@python.org</a><br>
<a href="https://mail.python.org/mailman/listinfo/centraloh" target="_blank">https://mail.python.org/mailman/listinfo/centraloh</a><br>

</div>
</blockquote></div></div></span></div>
<br>_______________________________________________<br>
CentralOH mailing list<br>
<a href="mailto:CentralOH@python.org" target="_blank">CentralOH@python.org</a><br>
<a href="https://mail.python.org/mailman/listinfo/centraloh" target="_blank">https://mail.python.org/mailman/listinfo/centraloh</a><br>
<br></blockquote></div><br></div>
</div></div><br>_______________________________________________<br>
CentralOH mailing list<br>
<a href="mailto:CentralOH@python.org">CentralOH@python.org</a><br>
<a href="https://mail.python.org/mailman/listinfo/centraloh" target="_blank">https://mail.python.org/mailman/listinfo/centraloh</a><br>
<br></blockquote></div><br></div>