[New-bugs-announce] [issue42447] robotsparser deny all with some rules

Mon Nov 23 12:53:43 EST 2020

New submission from Net Offensive <contact at netoffensive.com>:

Bonjour, 

Notre développeur a un soucis avec l'utilisation de cette librairie. Dans le cadre d'un projet SEO, nous souhaiterions scrapper les pages de notre réseau de site.

Nous avons essayé de tester avec l'un de nos site dont les pages se présentent comme ce guide sur le référencement : https://www.netoffensive.blog/referencement-naturel/

Elle ne sont pas détectées comme des pages à cause de leur forme en repertoire. A ton besoin forcément de créer des pages du type : page.ext ?

C'est pourtant un format utilisé sur Wordpress et d'autres CMS.

Merci

---------------

Hello, 

Our developer has a problem with the use of this library. As part of an SEO project, we would like to scramble the pages of our site network.

We tried to test with one of our site whose pages look like this SEO guide: https://www.netoffensive.blog/referencement-naturel/.

They are not detected as pages because of their directory shape. Do you necessarily need to create pages of the type: page.ext?

It is however a format used on Wordpress and other CMS.

Thanks

Translated with www.DeepL.com/Translator (free version)

----------
components: Library (Lib)
messages: 381683
nosy: contact
priority: normal
severity: normal
status: open
title: robotsparser deny all with some rules
type: behavior
versions: Python 3.6

_______________________________________
Python tracker <report at bugs.python.org>
<https://bugs.python.org/issue42447>
_______________________________________