robots en python

David Arango arango en gmail.com
Jue Nov 30 09:55:01 CET 2006


Seguramente se refieren a que debes soportar las cabeceras
last-modified y etag, si tienes un momento lo mejor es que le eches un
vistazo a este documento [1] en el que te explican un poquito lo que
significa cada cabecera HTTP y lo que un buen cliente debe hacer (un
robot es un cliente HTTP, igual que un navegador o un agregador).

Además debes comprobar antes de nada si existe un archivo robots.txt y
parsearlo para ver si tienes permiso para acceder a los contenidos. El
módulo roboparser que te han comentado antes te soluciona este
problema.

Lo de desarrollar clientes HTTP no es tan simple como parece :-( ,
quizá te interese aprender a utilizar Twisted [2], todo depende del
tamaño de la aplicación que vayas a desarrollar.

[1] http://www.w3.org/Protocols/rfc2616/rfc2616-sec14.html
[2] http://twistedmatrix.com/trac/

On 11/28/06, joana salgado gomez <joana_mendaro en hotmail.com> wrote:
>    me han dicho que mi  robot no sigue reglas, no respeta a los
>    servidores, la verdad no se bien lo que quiere decir si alguien me
>    puede decir lo que significa y como lo tengo que arreglar se lo
>    agradeceria.

-- 
David Arango, el único desarrollador con una orden de alejamiento de
Jeffrey Zeldman
Simplelogica.net, ahora con un 33,3% más de intromisión en listas de correo

Cuando no hago otra cosa escribo en mildiez.net




Más información sobre la lista de distribución Python-es