Re: [Python-de] OT: Versuch einen crawler für eine eine geografische Region zu schreiben

Jede bessere Suchmaschine hat eine erweiterte Suche mit zusätzlichen Optionen. Die von Google findest du unter https://www.google.de/advanced_search?hl=de&fg=1 Eine Sichtkontrolle ist aber unabdingbar, insbesondere wenn du nach bestimmten Regionen suchst. Weder IP-Adresse, noch Domain, noch das Impressum/Kontakt (falls vorhanden) sind aussagekräftig genug. Eventuell sind auch semantische Suchmaschinen für dich nützlich: http://de.wikipedia.org/wiki/Semantische_Suchmaschine Die gefundenen Webseiten an sich würde ich mit einem externen Tool wie curl grabben. Python hat String-Matching-Funktionen eingebaut, mit denen du gezielt Inhalte finden und verarbeiten kannst. Auf jeden Fall ist ein interner Speicher und ein Index hilfreich, je nach Projektumfang gleich ein ordentliches DBMS oder sowas wie Hadoop.
participants (1)
-
Alexander Langer