[Python-es] scrapear un javascript

Gonzalo V gvm2121 en gmail.com
Dom Ene 29 10:34:36 EST 2017


gracias javi, muy útil tu respuesta. ¿que más se debería saber cómo para
tener un camino más certero?

El 27 ene. 2017 8:26 AM, "lasizoillo" <lasizoillo en gmail.com> escribió:

> Buenas,
>
> Para hacer scraping en sitios que abusan de javascript, siempre que no
> tengas unos criterios de eficiencia excesivos (en plan quiero un
> millón de requests hechas para mañana) y no te importe que el scraper
> use demasiada memoria, yo tiraría por echarle un vistazo a webdriver.
> Haces las pruebas manejando un chrome o un firefox y si todo va bien
> pasas a controlar un navegador headless como phantomjs.
>
> Te obliga a aprender tecnologías, pero a la larga te ahorra tiempo.
>
> Otra opción es investigar que hace ese javascript para simular su
> comportamiento con tu scraper. Googleando un poco tiene pinta que es
> una cosa tipo de .net y que hay ejemplos de como lidiar con ello:
>
> http://toddhayton.com/2015/05/04/scraping-aspnet-pages-with-
> ajax-pagination/
> http://stackoverflow.com/questions/23885771/scraping-
> with-dopostback-with-link-url-hidden
>
> Con la información que das tampoco se ser más concreto. Espero que te
> sea de utilidad.
>
> Un saludo,
>
> Javi
>
>
> El día 27 de enero de 2017, 5:33, Gonzalo V <gvm2121 en gmail.com> escribió:
> > Hola amigos.
> > Estoy scrapeando un sitio web publico con urllib y beautifulsoup4 y hay
> unos
> > tab o lenguetas que se llenan a través de javascript. ¿cómo podría
> obtener
> > esa información?
> > este es el link, el href
> >  <li id="ctl00_mainPlaceHolder_tabVotaciones"><a
> > id="ctl00_mainPlaceHolder_btnVotaciones"
> > href="javascript:__doPostBack('ctl00$mainPlaceHolder$
> btnVotaciones','')">Votaciones</a></li>
> >
> > y no lo puedo abrir con urllib.request.urlopen
> >
> > alguien sabe cómo?, han tenido algún problema similar?
> >
> >
> >
> > Saludos,
> > Gonzalo
> >
> > _______________________________________________
> > Python-es mailing list
> > Python-es en python.org
> > https://mail.python.org/mailman/listinfo/python-es
> >
> _______________________________________________
> Python-es mailing list
> Python-es en python.org
> https://mail.python.org/mailman/listinfo/python-es
>
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: <http://mail.python.org/pipermail/python-es/attachments/20170129/8d8d0229/attachment.html>


Más información sobre la lista de distribución Python-es