[Python-es] obtener path completo de los recursos de una página web

Dom Ene 30 02:42:27 CET 2011

El día 30 de enero de 2011 02:18, Milton Galo Patricio Inostroza
Aguilera <minoztro en gmail.com> escribió:
> Hola:
>
> He estado utilizando urllib2 para obtener el contenido de páginas web.
>  Hasta ahora todo sin problemas :-).  Me di cuenta que el src de las
> imagenes, css y javascript de algunos sitios está con ruta relativa
> por lo que cuando obtengo la página pierdo todo eso (tengo la página
> en un solo archivo).  He buscado en la librería como poder cambiar los
> path relativos a absolutos y no he podido encontrar una solución.

Urllib vale para descargar una url y se ve que lo hace bien.

Para convertir una url a absoluta necesitas saber la url base y la url
a convertir:
http://docs.python.org/library/urlparse.html#urlparse.urljoin

La base se extrae del elemento base o de la dirección de la que te
descargaste la pagina con los links:
http://www.w3schools.com/tags/tag_base.asp

El como haces el parsing de las páginas queda como misterio, pero se
supone que lo haces de algún modo ;-)

Saludos:

Javi