OT: Versuch einen crawler für eine eine geografische Region zu schreiben

Hoi zäme,
ich möchte eine Liste der Webseiten zusammentragen, die sich mit "erneuerbarer Energie" befassen. Dabei will ich mich möglichst auf eine relative eng begrenzte geografische Region beschränken.
Die gefundenen Webseiten sollen dann weiter verarbeitet werden, um so Bezüge unter inhnen bzw. den Organisationen, die die Webseiten unterhalten, darstellen zu können.
Was ich als Ausgangsmaterial habe, ist eine Liste von Stichworten.
Hat jemand Vorschläge, wie so etwas gemacht werden soll?
Ich stelle mir folgenden Stack von Aktionen vor:
1. Suchen mit Google/Bing .. nach den Stichworten 2. ausfiltern der Resultate aufgrund der deren IP Adresse 3. Scrappen der gefundenen Sites um die Information zu "verdichten" 4. Verarbeiten der akkumulierten Info um die gewünschten Bezüge zu schaffen.
Hat jemand schon so was gemacht? Oder hat mir jemand Tips wie man sowas sinvoll macht?
danke für eure Antworten und schaut, dass der Sommer noch ein wenig bleibt..
gruss robert

Am 21.07.2013 15:16, schrieb robert rottermann:
Hoi zäme,
ich möchte eine Liste der Webseiten zusammentragen, die sich mit "erneuerbarer Energie" befassen. Dabei will ich mich möglichst auf eine relative eng begrenzte geografische Region beschränken.
Die gefundenen Webseiten sollen dann weiter verarbeitet werden, um so Bezüge unter inhnen bzw. den Organisationen, die die Webseiten unterhalten, darstellen zu können.
Was ich als Ausgangsmaterial habe, ist eine Liste von Stichworten.
Hat jemand Vorschläge, wie so etwas gemacht werden soll?
Ich stelle mir folgenden Stack von Aktionen vor:
- Suchen mit Google/Bing .. nach den Stichworten
- ausfiltern der Resultate aufgrund der deren IP Adresse
- Scrappen der gefundenen Sites um die Information zu "verdichten"
- Verarbeiten der akkumulierten Info um die gewünschten Bezüge zu schaffen.
Hat jemand schon so was gemacht? Oder hat mir jemand Tips wie man sowas sinvoll macht?
danke für eure Antworten und schaut, dass der Sommer noch ein wenig bleibt..
gruss robert _______________________________________________ python-de maillist - python-de@python.org http://mail.python.org/mailman/listinfo/python-de
Als Suchmaschine, probier mal
Das Teil sollte lernfähig sein.
Grüße
Andreas

danke
ich habs ausprobiert. aber ich begreife nicht recht, wie das Ding funktionieren soll.
Es scheint ja nicht auf irgendwelche, vorindizierte Daten zuzugreifen.
jedenfalls hat ein "vanity search" nach meinem Namen in der Demosite magere 4 Hits gebracht, bei google waren es knapp 70'000. Inklusive einer Hunderasse mit entsprechendem Namen ..
Robert
Das Teil sollte lernfähig sein.
Grüße gliche 4 re
Andreas
python-de maillist - python-de@python.org http://mail.python.org/mailman/listinfo/python-de

Am 21.07.2013 18:54, schrieb robert rottermann:
danke
ich habs ausprobiert. aber ich begreife nicht recht, wie das Ding funktionieren soll.
Es scheint ja nicht auf irgendwelche, vorindizierte Daten zuzugreifen.
Ist kein Schnellstarter. Dafür solltest Du in der Lage sein, Kontrolle über den Index und dessen Aufbau zu erlangen. Soweit jedenfalls mein Eindruck beim Test.

Am 21.07.2013 18:54, schrieb robert rottermann:
ich habs ausprobiert. aber ich begreife nicht recht, wie das Ding funktionieren soll.
Es scheint ja nicht auf irgendwelche, vorindizierte Daten zuzugreifen.
yacy ist in erster Linie eine Software, mit der Du Deine eigene Suchmaschine aufsetzen kannst. Du kannst (und das wäre auch wünschenswert), sie in der Netzwerk anderen yacy-Suchmaschinen einklinken. So entsteht ein Netz unabhängiger, dezentraler Suchmaschinen. Jede kennt "seinen Teil des Netzes.
Du kannst zudem yacy als Proxy verwenden, dann dient Dein Surf-Verhalten dazu, den Index zu füllen. Wenn Du also viel im Bereich "erneuerbarer Energie" surfst, wird Deinen yacy-Maschine Spezialist dafür :-)
Was Deine spezielle Anforderungen an die regionale Ausprägung betrifft, so bin ich sicher, dass man das dort implementieren kann -- allerdings in Java :-(. Mit Geo-IPs zu arbeiten halte ich aber für kritisch: Wenn eine Initiative aus Brandenburg einen Strato-Server hat, passen Geo-IP und Region nicht zusammen.

Hallo Robert,
hier mal ein paar Einstiegspunkte:
- Die Suche mit Google/Bing ist ein einfacher HTTP Request. Dafür würde ich erstmal http://docs.python-requests.org/en/latest/ verwenden. - Zum Parsen von HTML würde ich https://pypi.python.org/pypi/beautifulsoup4 empfehlen. - Wenn dein Crawler komplexer wird und Requests nicht ausreicht, würde ich http://scrapy.org/ verwenden. Damit kannst du je nach Umfang natürlich auch die Suchanfragen ausführen. - Die automatische Exraktion der Daten ist natürlich der spannendste Teil. Das würde hier zu weit führen, so lange du keine konkreteren Fragen stellst. Ein Blick auf http://nltk.org/ kann aber sicher nichts schaden. - Zu den IP Filtern kann ich nichts sagen.
viele Grüße, Achim
Am 21.07.2013 um 15:16 schrieb robert rottermann:
Hoi zäme,
ich möchte eine Liste der Webseiten zusammentragen, die sich mit "erneuerbarer Energie" befassen. Dabei will ich mich möglichst auf eine relative eng begrenzte geografische Region beschränken.
Die gefundenen Webseiten sollen dann weiter verarbeitet werden, um so Bezüge unter inhnen bzw. den Organisationen, die die Webseiten unterhalten, darstellen zu können.
Was ich als Ausgangsmaterial habe, ist eine Liste von Stichworten.
Hat jemand Vorschläge, wie so etwas gemacht werden soll?
Ich stelle mir folgenden Stack von Aktionen vor:
- Suchen mit Google/Bing .. nach den Stichworten
- ausfiltern der Resultate aufgrund der deren IP Adresse
- Scrappen der gefundenen Sites um die Information zu "verdichten"
- Verarbeiten der akkumulierten Info um die gewünschten Bezüge zu schaffen.
Hat jemand schon so was gemacht? Oder hat mir jemand Tips wie man sowas sinvoll macht?
danke für eure Antworten und schaut, dass der Sommer noch ein wenig bleibt..
gruss robert _______________________________________________ python-de maillist - python-de@python.org http://mail.python.org/mailman/listinfo/python-de

Danke Achim, du lieferst mir zwei neue Tools in meinen Köcher... On 07/21/2013 11:39 PM, Achim Domma wrote:
Hallo Robert,
hier mal ein paar Einstiegspunkte:
- Die Suche mit Google/Bing ist ein einfacher HTTP Request. Dafür würde ich erstmal http://docs.python-requests.org/en/latest/ verwenden.
- Zum Parsen von HTML würde ich https://pypi.python.org/pypi/beautifulsoup4 empfehlen.
ich hab an scrapy gedacht. beautifulsoup kenne ich zwar, aber aufgrund der doku scheint scrapy eine mischung aus einem crawler und einem html parser a la beautifulsoup zu sein.
- Wenn dein Crawler komplexer wird und Requests nicht ausreicht, würde ich http://scrapy.org/ verwenden. Damit kannst du je nach Umfang natürlich auch die Suchanfragen ausführen.
- Die automatische Exraktion der Daten ist natürlich der spannendste Teil. Das würde hier zu weit führen, so lange du keine konkreteren Fragen stellst. Ein Blick auf http://nltk.org/ kann aber sicher nichts schaden.
Was ich extrahieren möchte ist: - Standort der Firma/Organisation - Tätigkeitsbereiche - Personennamen, idealerweise bereichsbezogen
Das mittelfristige Ziel ist es, ein Atlas der Firmen, Forschungsinstitute usw zu erstellen, die im Bereich der von Cleantech (d.h. erneuerbaren Energien) tätig sind. Diese sollten nach Kantonen (das sind die Schweizer Bundesländer) unterteilt sein, da bei uns die viele Förderungsmassnahmen und Vorschriften kantonal verschieden sind.
danke bestens und häb än schöne taag Robert
- Zu den IP Filtern kann ich nichts sagen.
viele Grüße, Achim
Am 21.07.2013 um 15:16 schrieb robert rottermann:
Hoi zäme,
ich möchte eine Liste der Webseiten zusammentragen, die sich mit "erneuerbarer Energie" befassen. Dabei will ich mich möglichst auf eine relative eng begrenzte geografische Region beschränken.
Die gefundenen Webseiten sollen dann weiter verarbeitet werden, um so Bezüge unter inhnen bzw. den Organisationen, die die Webseiten unterhalten, darstellen zu können.
Was ich als Ausgangsmaterial habe, ist eine Liste von Stichworten.
Hat jemand Vorschläge, wie so etwas gemacht werden soll?
Ich stelle mir folgenden Stack von Aktionen vor:
- Suchen mit Google/Bing .. nach den Stichworten
- ausfiltern der Resultate aufgrund der deren IP Adresse
- Scrappen der gefundenen Sites um die Information zu "verdichten"
- Verarbeiten der akkumulierten Info um die gewünschten Bezüge zu schaffen.
Hat jemand schon so was gemacht? Oder hat mir jemand Tips wie man sowas sinvoll macht?
danke für eure Antworten und schaut, dass der Sommer noch ein wenig bleibt..
gruss robert _______________________________________________ python-de maillist - python-de@python.org http://mail.python.org/mailman/listinfo/python-de
python-de maillist - python-de@python.org http://mail.python.org/mailman/listinfo/python-de
participants (4)
-
Achim Domma
-
Andreas Röhler
-
Hartmut Goebel
-
robert rottermann