[Python-de] OT: Versuch einen crawler für eine eine geografische Region zu schreiben

Andreas Röhler andreas.roehler at online.de
So Jul 21 18:31:07 CEST 2013


Am 21.07.2013 15:16, schrieb robert rottermann:
> Hoi zäme,
>
> ich möchte eine Liste der Webseiten zusammentragen, die sich mit "erneuerbarer Energie" befassen.
> Dabei will ich mich möglichst auf eine relative eng begrenzte geografische Region beschränken.
>
> Die gefundenen Webseiten sollen dann weiter verarbeitet werden, um so Bezüge unter inhnen bzw. den Organisationen, die die Webseiten unterhalten, darstellen zu können.
>
> Was ich als Ausgangsmaterial habe, ist eine Liste von Stichworten.
>
> Hat jemand Vorschläge, wie so etwas gemacht werden soll?
>
> Ich stelle mir folgenden Stack von Aktionen vor:
>
> 1. Suchen mit Google/Bing .. nach den Stichworten
> 2. ausfiltern der Resultate aufgrund der deren IP Adresse
> 3. Scrappen der gefundenen Sites um die Information zu "verdichten"
> 4. Verarbeiten der akkumulierten Info um die gewünschten Bezüge zu schaffen.
>
> Hat jemand schon so was gemacht?
> Oder hat mir jemand Tips wie man sowas sinvoll macht?
>
> danke für eure Antworten
> und
> schaut, dass der Sommer noch ein wenig bleibt..
>
> gruss
> robert
> _______________________________________________
> python-de maillist  -  python-de at python.org
> http://mail.python.org/mailman/listinfo/python-de
>


Als Suchmaschine, probier mal

http://www.yacy.net

Das Teil sollte lernfähig sein.

Grüße

Andreas





Mehr Informationen über die Mailingliste python-de