[Python-es] obtener path completo de los recursos de una página web
lasizoillo
lasizoillo en gmail.com
Dom Ene 30 02:42:27 CET 2011
El día 30 de enero de 2011 02:18, Milton Galo Patricio Inostroza
Aguilera <minoztro en gmail.com> escribió:
> Hola:
>
> He estado utilizando urllib2 para obtener el contenido de páginas web.
> Hasta ahora todo sin problemas :-). Me di cuenta que el src de las
> imagenes, css y javascript de algunos sitios está con ruta relativa
> por lo que cuando obtengo la página pierdo todo eso (tengo la página
> en un solo archivo). He buscado en la librería como poder cambiar los
> path relativos a absolutos y no he podido encontrar una solución.
Urllib vale para descargar una url y se ve que lo hace bien.
Para convertir una url a absoluta necesitas saber la url base y la url
a convertir:
http://docs.python.org/library/urlparse.html#urlparse.urljoin
La base se extrae del elemento base o de la dirección de la que te
descargaste la pagina con los links:
http://www.w3schools.com/tags/tag_base.asp
El como haces el parsing de las páginas queda como misterio, pero se
supone que lo haces de algún modo ;-)
Saludos:
Javi
Más información sobre la lista de distribución Python-es