Construir un bot para analizar una pagina web

Cesar Ortiz cesar.ortiz en gmail.com
Lun Oct 16 10:25:03 CEST 2006


Hola,

Tu problema se puede dividir en 3 partes:

[1] descargarte las paginas (que parece lo tienes resuelto)
[2] parsearlas
[3] procesarlas (tu problema)

Con respecto a [2] la primera decisión que tienes que tomar es si quieres
parsear mediante eventos (SAX) y tener el arbol de la página en memoria
(DOM). El hacerlo de una manera o otra depende un poco del tipo de decisión.
Una vez hayas decidido como parsear, tendrás que evaluar que parses hay que
soporten el método escogido.
El escoger uno u otro dependerá de [3], y de los requisitos que tengas de
tiempo de procesado, consumo de memoria...
Ah! y una cosa importante, deberás tener muy en cuenta como se comporta el
parser con el html mal formado.

Hay muchos parsers por ahí.... (por ejemplo libxml2 tiene un parser de html)




On 10/16/06, Jose Luis Dominguez NONLILLY <
DOMINGUEZ_JOSE_LUIS_NONLILLY en lilly.com> wrote:
>
> Hola a todos.
>
> Tengo idea de hacer un bot, que se registre en una determinada página web,
> y extraiga ciertos datos, y siga navegando por dicha web.
>
> Para aclararlo más. Quiero automatizar la extracción de datos de la típica
> base de datos de una web, que muestra los registros de 10 en 10.
>
> Hasta ahora lo estoy haciendo a mano con el típico copy-paste.
>
>
> Mi pregunta es: que librerías se utilizan para esto.
>
> He googleado por internet, y he encontrado urllib y urllib2, con la que
> soy capaz de abrir una determinada página.
>
> Existe alguna librería que me ayude a parsear, he estado viendo htmllib,
> pero no parece muy potente.
>
> Necesitaría algo que me ayudase a identificar los objetos, para luego
> almacenarlos en una base de datos, o un fichero local.
>
> Un saludo a todos y gracias por adelantado
> _______________________________________________
> Python-es mailing list
> Python-es en aditel.org
> http://listas.aditel.org/listinfo/python-es
>



-- 
Página personal: http://www.cesar.ortiz.name
Weblog: http://cesarob.blogspot.com/




Más información sobre la lista de distribución Python-es