Extraer comentarios de Amazon
lasizoillo
lasizoillo en gmail.com
Mie Dic 2 16:05:23 CET 2009
El día 2 de diciembre de 2009 15:14, Cristina Yenyxe González García
<the.blue.valkyrie en gmail.com> escribió:
> El día 2 de diciembre de 2009 12:27, Marcos Garc?a
> <marcosgdf en gmail.com> escribió:
>> Comprobaste si Amazon tiene API?
>
> Sí que la tiene, ofreciendo muchas posibilidades a través de servicios
> web: http://aws.amazon.com/documentation/
> Lo que no sé es si exactamente consultar los comentarios estará entre ellas.
La mayoría (aunque creo que todas) de esos apis son de los servicios
de hosting que amazon ofrece.
Si se te dan bien jquery (selectores css), con pyquery parsearás
cualquier página a toda hostia:
http://pypi.python.org/pypi/pyquery/0.3.1
Si sabes de xpath, lxml es más que suficiente. Si todo lo demás falla,
BeautifulSoup o hacerte tu propio parser es la respuesta.
Para seguir la navegación necesaria para consultar todos los
comentarios puedes hacerlo directamente con pyquery, urllib2 (que
viene en el sistema) o algo más currado como twill (puede gestionar
cookies, referer, ...).
Para analizar el archivo html a la hora de hacerte el parser te
recomiendo usar Firefox+Firebug o usar Safari 4 y activar las opciones
de developer.
Resumiendo. Para esa pijadilla, usa pyquery y en una tarde lo tienes
hecho. Si vas a hacer parsing para más cosas usa lxml, porque pyquery
es excesivamente pesado y currate un buen sistema de descarga de
documentos.
Un saludo:
Javi
------------ próxima parte ------------
_______________________________________________
Lista de correo Python-es
http://listas.aditel.org/listinfo/python-es
FAQ: http://listas.aditel.org/faqpyes
Más información sobre la lista de distribución Python-es