Homepageinhalt auslesen
Moin, ich suche nach einer Möglichkeit, wie ich den Inhalt einer Tabelle auf einer Homepage auslesen und anschließend verarbeiten kann. Damit ihr eine ungefähre Vorstellung habt, was ich meine: http://www.bundesliga.de/de/liga/tabelle/index.php z.B. auf dieser Seite Automatisch jede Woche die Daten des HSV zu nehmen und dann z.B.mit denen der letzten Woche zu vergleichen. Ich hoffe, das macht mein Problem anschaulich. Danke und Gruß Malte
Servus, On Mon, 28 Sep 2009 23:29:49 +0200 surf4 <surf423@googlemail.com> wrote:
ich suche nach einer Möglichkeit, wie ich den Inhalt einer Tabelle auf einer Homepage auslesen und anschließend verarbeiten kann. Damit ihr eine ungefähre Vorstellung habt, was ich meine: http://www.bundesliga.de/de/liga/tabelle/index.php z.B. auf dieser Seite Automatisch jede Woche die Daten des HSV zu nehmen und dann z.B.mit denen der letzten Woche zu vergleichen.
Ja, urllib, html5lib und lxml sind deine Freunde. Plus irgendeine Persistenzlösung um die alten Daten zu laden. z.B. SQLite bietet sich da an. grüße, Marek
ja danke erstmal an alle....beautifulsoup finde ich erstmal ziemlich gut aus. werd mir mal die doku antun gruß malte
surf4 schrieb:
ja danke erstmal an alle....beautifulsoup finde ich erstmal ziemlich gut aus. werd mir mal die doku antun
Du hast aber schon Marcs Antwort gelesen und begriffen, dass dir BeautifulSoup, d.h. generell das Parsen des HTML-Outputs der angegebenen URL, für deinen konkreten Anwendungsfall nichts bringen wird? Chris
ja hab ich..aber es gibt ja auch noch andere seiten..so hat spiegel-online das z.B. in HTML vorliegen, wenn ich mich nicht täusche. Aber danke für den Hinweis! Malte
surf4 wrote:
Moin,
ich suche nach einer Möglichkeit, wie ich den Inhalt einer Tabelle auf einer Homepage auslesen und anschließend verarbeiten kann. Damit ihr eine ungefähre Vorstellung habt, was ich meine: http://www.bundesliga.de/de/liga/tabelle/index.php z.B. auf dieser Seite Automatisch jede Woche die Daten des HSV zu nehmen und dann z.B.mit denen der letzten Woche zu vergleichen. Ich hoffe, das macht mein Problem anschaulich.
Das wird schwierig sein - die Tabelle wird in JavaScript erzeugt: /js/bundesliga_tabelle.js Vielleicht hilft ein wenig Reverse-Engineering weiter. -- Marc-Andre Lemburg eGenix.com Professional Python Services directly from the Source (#1, Sep 29 2009)
Python/Zope Consulting and Support ... http://www.egenix.com/ mxODBC.Zope.Database.Adapter ... http://zope.egenix.com/ mxODBC, mxDateTime, mxTextTools ... http://python.egenix.com/
::: Try our new mxODBC.Connect Python Database Interface for free ! :::: eGenix.com Software, Skills and Services GmbH Pastor-Loeh-Str.48 D-40764 Langenfeld, Germany. CEO Dipl.-Math. Marc-Andre Lemburg Registered at Amtsgericht Duesseldorf: HRB 46611 http://www.egenix.com/company/contact/
M.-A. Lemburg schrieb:
surf4 wrote:
ich suche nach einer Möglichkeit, wie ich den Inhalt einer Tabelle auf einer Homepage auslesen und anschließend verarbeiten kann. Damit ihr eine ungefähre Vorstellung habt, was ich meine: http://www.bundesliga.de/de/liga/tabelle/index.php
Das wird schwierig sein - die Tabelle wird in JavaScript erzeugt: /js/bundesliga_tabelle.js
Vielleicht hilft ein wenig Reverse-Engineering weiter.
... oder Selenium: http://seleniumhq.org/ Lässt sich auch in Python verwenden. Stefan
surf4:
ich suche nach einer Möglichkeit, wie ich den Inhalt einer Tabelle auf einer Homepage auslesen und anschließend verarbeiten kann. Damit ihr eine ungefähre Vorstellung habt, was ich meine: http://www.bundesliga.de/de/liga/tabelle/index.php z.B. auf dieser Seite Automatisch jede Woche die Daten des HSV zu nehmen und dann z.B.mit denen der letzten Woche zu vergleichen. Ich hoffe, das macht mein Problem anschaulich.
Hallo Malte, ich habe für so etwas mit BeautifulSoup [1] sehr gute Erfahrungen gemacht, insbesondere auch deswegen, weil es es einen fehlertoler- anten" Parser enthält. Das ist besonders bei händisch produziertem HTML Gold wert. Aber auch die Doku dazu ist extrem gut. Gruß, Dinu [1] http://www.crummy.com/software/BeautifulSoup ...................................................................... Follow me on Twitter: http://twitter.com/dinugherman
participants (6)
-
Christopher Arndt -
Dinu Gherman -
M.-A. Lemburg -
Marek Kubica -
Stefan Behnel -
surf4