
On Sat, 31 May 2008 14:47:39 +0200 Stefan Behnel <python-de@behnel.de> wrote:
Nach kurzer Recherche schien mir das die bessere implementierung für meine Bedürfnisse zu sein oder spricht irgendwas gröberes gegen Soup?
Langsamkeit? Speicherverbrauch?
http://blog.ianbicking.org/2008/03/30/python-html-parser-performance/
Ich tät ja "implementation" sagen, denn Markup mit regulären Ausdrücken zu parsen ist irgendwie alles andere als vertrauenserweckend. Manchmal ist auch die API seltsam, das etwas schlichtweg nicht so funktioniert, wie man sich das denken würde und es auch logisch wäre (ich habe dann den Autor um Hilfe gefragt, der auch bald geantwortet hat - das rechne ich BS durchaus an). Ich würde aber inzwischen eher zu lxml tendieren, wenn da noch HTML im Spiel ist auch noch zur html5lib. Insbesondere XPath und CSS Selektoren sind etwas, was BS nicht bieten wird können und die IMHO sehr angehehm sind, wenn man mit XML arbeitet. Disclaimer: ich preise gerade eine Lib an, die von meinem Vorposter maintaint wird. Nichtsdestotrotz ist lxml der derzeit wohl beste Weg aus Python XML-Dateien zu verarbeiten, etwa "making XML suck less". grüße, Marek