Re: [Python-de] OT: Versuch einen crawler für eine eine geografische Region zu schreiben

22 Jul 2013

      Hallo Robert,

hier mal ein paar Einstiegspunkte:

- Die Suche mit Google/Bing ist ein einfacher HTTP Request. Dafür würde ich erstmal http://docs.python-requests.org/en/latest/ verwenden.
- Zum Parsen von HTML würde ich https://pypi.python.org/pypi/beautifulsoup4 empfehlen.
- Wenn dein Crawler komplexer wird und Requests nicht ausreicht, würde ich http://scrapy.org/ verwenden. Damit kannst du je nach Umfang natürlich auch die Suchanfragen ausführen.
- Die automatische Exraktion der Daten ist natürlich der spannendste Teil. Das würde hier zu weit führen, so lange du keine konkreteren Fragen stellst. Ein Blick auf http://nltk.org/ kann aber sicher nichts schaden.
- Zu den IP Filtern kann ich nichts sagen.

viele Grüße,
Achim

Am 21.07.2013 um 15:16 schrieb robert rottermann:
...
Hoi zäme,
ich möchte eine Liste der Webseiten zusammentragen, die sich mit "erneuerbarer Energie" befassen.
Dabei will ich mich möglichst auf eine relative eng begrenzte geografische Region beschränken.
Die gefundenen Webseiten sollen dann weiter verarbeitet werden, um so Bezüge unter inhnen bzw. den Organisationen, die die Webseiten unterhalten, darstellen zu können.
Was ich als Ausgangsmaterial habe, ist eine Liste von Stichworten.
Hat jemand Vorschläge, wie so etwas gemacht werden soll?
Ich stelle mir folgenden Stack von Aktionen vor:
1. Suchen mit Google/Bing .. nach den Stichworten
2. ausfiltern der Resultate aufgrund der deren IP Adresse
3. Scrappen der gefundenen Sites um die Information zu "verdichten"
4. Verarbeiten der akkumulierten Info um die gewünschten Bezüge zu schaffen.
Hat jemand schon so was gemacht?
Oder hat mir jemand Tips wie man sowas sinvoll macht?
danke für eure Antworten
und
schaut, dass der Sommer noch ein wenig bleibt..
gruss
robert
_______________________________________________
python-de maillist  -  python-de@python.org
http://mail.python.org/mailman/listinfo/python-de

Re: [Python-de] OT: Versuch einen crawler für eine eine geografische Region zu schreiben

Achim Domma