Construir un bot para analizar una pagina web
Luis Miguel Morillas
morillas en gmail.com
Mar Oct 17 20:22:01 CEST 2006
El 17/10/06, Jose Luis Dominguez
NONLILLY<DOMINGUEZ_JOSE_LUIS_NONLILLY en lilly.com> escribió:
> Gracias a todos ;)
>
> Ayer he estado probando con SGMLLib.
>
> Un parser por eventos, Heredas la clase SGMLParser y implementas los
> métodos que te hagan falta.
>
> Mi primera sensación es que es una herramienta adecuada para cuando se
> quiere actuar sobre toda la página web, modificar todos los parámetros de
> un determinado tag, buscar todas las referencias, etc. Lo veo más difícil
> de usar para extraer datos concretos, aunque se puede hacer.
>
> Ahora probaré algún parser que me genere un árbol DOM, y las librerías que
> se han referenciado en los mensajes. Ya os daré mi opinión, por si
> interesa a alguien.
>
Qué necesitas exactamente? Qué cambios quieres hacer en los tag? El
proceso más sencillo si quieres hacer transformaciones es convertir
tus html en xhtml y después acometer los cambios. Para procesar
documentos xml (y xhtml ) lo más cómodo/sencillo es amara [1] César
escribió un documento que he actualizado un poco [2]
[1] http://uche.ogbuji.net/tech/4suite/amara/
[2] http://livingpyxml.python-hosting.com/wiki/ArticuloCesarCardenas
>
>
> python-es-bounces en aditel.org wrote on 16/10/2006 18:38:02:
>
> > Prueba con Twill, esta en una capa de abstraccion
> > superior que los modulos comunes de la libreria
> > estandar:
> >
> > http://twill.idyll.org/
> >
> > --- Jose Luis Dominguez NONLILLY
> > <DOMINGUEZ_JOSE_LUIS_NONLILLY en LILLY.COM> escribió:
> >
> > > Hola a todos.
> > >
> > > Tengo idea de hacer un bot, que se registre en una
> > > determinada página web,
> > > y extraiga ciertos datos, y siga navegando por dicha
> > > web.
> > >
> > > Para aclararlo más. Quiero automatizar la extracción
> > > de datos de la típica
> > > base de datos de una web, que muestra los registros
> > > de 10 en 10.
> > >
> > > Hasta ahora lo estoy haciendo a mano con el típico
> > > copy-paste.
> > >
> > >
> > > Mi pregunta es: que librerías se utilizan para esto.
> > >
> > > He googleado por internet, y he encontrado urllib y
> > > urllib2, con la que
> > > soy capaz de abrir una determinada página.
> > >
> > > Existe alguna librería que me ayude a parsear, he
> > > estado viendo htmllib,
> > > pero no parece muy potente.
> > >
> > > Necesitaría algo que me ayudase a identificar los
> > > objetos, para luego
> > > almacenarlos en una base de datos, o un fichero
> > > local.
> > >
> > > Un saludo a todos y gracias por adelantado
> > > _______________________________________________
> > > Python-es mailing list
> > > Python-es en aditel.org
> > > http://listas.aditel.org/listinfo/python-es
> > >
> >
> >
> >
> >
> >
> >
> > ___________________________________________________________
> > Do You Yahoo!?
> > La mejor conexión a Internet y <b >2GB</b> extra a tu correo por $100 al
> mes.
> > http://net.yahoo.com.mx
> >
> > _______________________________________________
> > Python-es mailing list
> > Python-es en aditel.org
> > http://listas.aditel.org/listinfo/python-es
> _______________________________________________
> Python-es mailing list
> Python-es en aditel.org
> http://listas.aditel.org/listinfo/python-es
>
--
Saludos,
--
Luis Miguel
Más información sobre la lista de distribución Python-es