Re: [Python-de] OT: Versuch einen crawler für eine eine geografische Region zu schreiben
Wow, anspruchsvolles Projekt! Mein Input: - Die IP-Adressen der Server sind für eine geographische Eingrenzung nicht nutzbar, wenn die Granularität besser als das Land sein soll. Wenn es nur um das Land geht, wird es vom gewünschten Land abhängen, wie gut die Länderzuordnung der IP des Webservers für eine geographische Zuordnung der Ergebnisinhalte funktioniert. Für Deutschland dürfte das gut funktionieren, weil es keine Gründe für ein Ausweichen auf "ausländische Server" gibt (Bandbreite, Verfügbarkeit und Preis sind alle OK); für Brasilien (angeblich lassen viele Brasilianische Firmen ihre Seiten in den USA hosten) dürfte das dann nicht so gut funktionieren. Für alles unter der Granularität "Land" funktioniert das aus Gründen nicht, wie - die überregionalen Zeitungen haben die Server an einem Ort, schreiben aber über landesweite Ereignisse - viele Vereine, Firmen und Blog-Schreiber hosten "irgendwo" und "irgendwo" heißt, bei Hetzner, Host-Europe, der Telekom und nicht "in Region XY" - Suche mit "lokale Ergebnisse bevorzugen" (oder wie immer das gerade in der Suchmaschine genannt wird) in einer Suchmaschine die das kann dürfte vielleicht eine gute Vorsortierung geben, die den Lokalisierungsteil, den du dir wünschst, ganz gut abdeckt. - Alternativ kann man Städtenamen der Region in die Suche einpflegen. Zumindest Google bietet in der Suchsyntax die Option "eins von den folgenden Wörtern" (als extended regex wäre das: '(bla|bli|blubb)'). Da ist halt dann ein bischen Fleißarbeit beim Raussuchen der Ortsnamen gefragt. hoffe, es war nützlich, Hubert On 07/21/2013 03:16 PM, robert rottermann wrote:
Hoi zäme,
ich möchte eine Liste der Webseiten zusammentragen, die sich mit "erneuerbarer Energie" befassen. Dabei will ich mich möglichst auf eine relative eng begrenzte geografische Region beschränken.
Die gefundenen Webseiten sollen dann weiter verarbeitet werden, um so Bezüge unter inhnen bzw. den Organisationen, die die Webseiten unterhalten, darstellen zu können.
Was ich als Ausgangsmaterial habe, ist eine Liste von Stichworten.
Hat jemand Vorschläge, wie so etwas gemacht werden soll?
Ich stelle mir folgenden Stack von Aktionen vor:
1. Suchen mit Google/Bing .. nach den Stichworten 2. ausfiltern der Resultate aufgrund der deren IP Adresse 3. Scrappen der gefundenen Sites um die Information zu "verdichten" 4. Verarbeiten der akkumulierten Info um die gewünschten Bezüge zu schaffen.
Hat jemand schon so was gemacht? Oder hat mir jemand Tips wie man sowas sinvoll macht?
danke für eure Antworten und schaut, dass der Sommer noch ein wenig bleibt..
gruss robert
participants (1)
-
Hubert Grünheidt