robots en python
David Arango
arango en gmail.com
Jue Nov 30 09:55:01 CET 2006
Seguramente se refieren a que debes soportar las cabeceras
last-modified y etag, si tienes un momento lo mejor es que le eches un
vistazo a este documento [1] en el que te explican un poquito lo que
significa cada cabecera HTTP y lo que un buen cliente debe hacer (un
robot es un cliente HTTP, igual que un navegador o un agregador).
Además debes comprobar antes de nada si existe un archivo robots.txt y
parsearlo para ver si tienes permiso para acceder a los contenidos. El
módulo roboparser que te han comentado antes te soluciona este
problema.
Lo de desarrollar clientes HTTP no es tan simple como parece :-( ,
quizá te interese aprender a utilizar Twisted [2], todo depende del
tamaño de la aplicación que vayas a desarrollar.
[1] http://www.w3.org/Protocols/rfc2616/rfc2616-sec14.html
[2] http://twistedmatrix.com/trac/
On 11/28/06, joana salgado gomez <joana_mendaro en hotmail.com> wrote:
> me han dicho que mi robot no sigue reglas, no respeta a los
> servidores, la verdad no se bien lo que quiere decir si alguien me
> puede decir lo que significa y como lo tengo que arreglar se lo
> agradeceria.
--
David Arango, el único desarrollador con una orden de alejamiento de
Jeffrey Zeldman
Simplelogica.net, ahora con un 33,3% más de intromisión en listas de correo
Cuando no hago otra cosa escribo en mildiez.net
Más información sobre la lista de distribución Python-es