Suchen und Ersetzenanhand einer Ersetzungstabelle
Ich suche ein kleines Programm, mit dem ich Dateien konvertieren kann. Ich möchte angeben: * Name einer Eingabedatei, * Name einer Ausgabedatei * Ersetzungstabelle-Datei mit dem Aufbau String 1 alt] | [String 1 neu] String 2 alt] | [String 2 neu] String 3 alt] | [String 3 neu]. Ich habe willkürlich das Pipe-Zeichen gewählt. Beispiele: Detmold|Berlin (immer, wenn Detmold in einer Zeile vorkommt, wird Berlin eingesetzt). <br> | $1310 (<br> wird ersetzt durch carriage return - line feed <name> | name wird gelöscht </name> | /name wird gelöscht Ich möchte HTML-Dateien nur teilweise "ent-taggen" und andere Dateien etwas aufbereiten (suchen und ersetzen von Steuerzeichen etc.). Verzeichnisse müssen nicht rekursiv durchsucht werden, ob per Commandline oder per Dialog die Dateinamen eingegeben werden ist egal. Hat jemand so ein Programm im Koffer? Das wäre prima. Freundliche Grüße Werner Warweg
Am 21.11.2011 14:24, schrieb Werner Warweg:
Hat jemand so ein Programm im Koffer? Das wäre prima.
Tssss. Ich habe ja einen großen Koffer. Aber Du erwartest etwas viel, wenn Du denkst, dass jemand hier eine Programm hat, das *genau* auf Deine Anforderungen (incl. Dateiformat) erfüllt. Zum "enttaggen" möchtest Du etree oder lxml.etree und dazu beautyfulsoup oderlxml.html.soupparser verwenden (oder einen anderen der XML-Prozessoren). Oder Du möchtest einen kleinen Entwicklungsauftrag an einen der freischaffenden Entwickler vergeben. -- Schönen Gruß - Regards Hartmut Goebel Dipl.-Informatiker (univ.), CISSP, CSSLP Goebel Consult Spezialist für IT-Sicherheit in komplexen Umgebungen http://www.goebel-consult.de Monatliche Kolumne: http://www.cissp-gefluester.de/ Goebel Consult ist Mitglied bei http://www.7-it.de
Am 21.11.2011 14:24, schrieb Werner Warweg:
Ich suche ein kleines Programm, mit dem ich Dateien konvertieren kann.
Ich möchte angeben: * Name einer Eingabedatei, * Name einer Ausgabedatei * Ersetzungstabelle-Datei mit dem Aufbau String 1 alt] | [String 1 neu] String 2 alt] | [String 2 neu] String 3 alt] | [String 3 neu].
... Hallo, ich habe mal eine kleines Script geschrieben, das verwendet aber keinen neuen Dateinamen: reprec: replace recursive http://www.thomas-guettler.de/scripts/reprec.py.txt Was du mit "HTML-Dateien enttaggen" meinst, ist mir nicht ganz klar. Zum Parsen von HTML ist BeautifulSoup das Mittel der Wahl. Gruß, Thomas -- Thomas Guettler, http://www.thomas-guettler.de/ E-Mail: guettli (*) thomas-guettler + de
Thomas Guettler, 22.11.2011 09:30:
Zum Parsen von HTML ist BeautifulSoup das Mittel der Wahl.
Ja, das höre ich leider immer noch sehr oft. http://blog.ianbicking.org/2008/03/30/python-html-parser-performance/ Stefan
On Tue, 22 Nov 2011 13:51:44 +0100 Stefan Behnel <python-de@behnel.de> wrote:
Thomas Guettler, 22.11.2011 09:30:
Zum Parsen von HTML ist BeautifulSoup das Mittel der Wahl.
Ja, das höre ich leider immer noch sehr oft.
http://blog.ianbicking.org/2008/03/30/python-html-parser-performance/
Magst du mal einen Blogartikel schreiben, den man dann Leuten verlinken kann? Ich finde jetzt um ehrlich zu sein Geschwindigkeit meist kein gutes Argument. CSS Selektoren, XPath, solider Unicode-Support, anständiger *echter* Parser, das finde ich wesentlich interessanter. Ebenso Python3-Support. Ich finde etwa auch html5lib interessant, weil es die HTML5-Parsing-Regeln implementiert. Da ist es mir egal dass es langsam ist, solange es Sachen sinnvoll parst und dann ein ElementTree-lookalike zurückgibt. grüße, Marek
Am 22.11.2011 16:33, schrieb Marek Kubica:
Magst du mal einen Blogartikel schreiben, den man dann Leuten verlinken kann? Ich finde jetzt um ehrlich zu sein Geschwindigkeit meist kein gutes Argument. CSS Selektoren, XPath, solider Unicode-Support, anständiger *echter* Parser, das finde ich wesentlich interessanter. Ebenso Python3-Support.
+3 Was nützt mir ein schneller Parser, wenn er über die "falschen" HTML-Seiten stolpert? -- Schönen Gruß - Regards Hartmut Goebel Dipl.-Informatiker (univ.), CISSP, CSSLP Goebel Consult Spezialist für IT-Sicherheit in komplexen Umgebungen http://www.goebel-consult.de Monatliche Kolumne: http://www.cissp-gefluester.de/ Goebel Consult ist Mitglied bei http://www.7-it.de
Hartmut Goebel, 23.11.2011 11:42:
Am 22.11.2011 16:33, schrieb Marek Kubica:
Magst du mal einen Blogartikel schreiben, den man dann Leuten verlinken kann? Ich finde jetzt um ehrlich zu sein Geschwindigkeit meist kein gutes Argument. CSS Selektoren, XPath, solider Unicode-Support, anständiger *echter* Parser, das finde ich wesentlich interessanter. Ebenso Python3-Support.
+3
Was nützt mir ein schneller Parser, wenn er über die "falschen" HTML-Seiten stolpert?
Na, dann ist es doch schön, dass es beides in einem gibt. http://blog.ianbicking.org/2008/12/10/lxml-an-underappreciated-web-scraping-... Stefan
participants (5)
-
Hartmut Goebel
-
Marek Kubica
-
Stefan Behnel
-
Thomas Guettler
-
Werner Warweg