Alexander Crössmann schrieb:
ich hab da ein verzwicktes Problem mit Umlauten, bei dem mir auch die Lektüre der python unicode Radgeber nicht weitergeholfen hat:
Ich hab eine csv Datei die ich mit hilfe des csv Moduls in ein Dictionary umwandle. In dieser befinden sich in manchen Zeilen Umlaute (im Editor im Klartext zu sehen).
Dann habe ich eine xml Datei (<?xml version="1.0" encoding="UTF-8"?>) die ich mit Hilfe eines Regulären Ausdrucks nach Feldern (z.B. <<hallo>>) durchsuche. Ich splitte den Text, ersetze die Felder durch Einträge aus dem Dictionary und füge sie wieder zusammen.
Es gab ja schon einige Hinweise. Ich möchte noch diesen hinzufügen: Arbeite intern auf jeden Fall mit unicode. D.h. du liest die XML-Datei und dekodierst sie mit UTF-8. Das gleiche machst du mit den CSV-Daten, bevor du sie in das CSV-Modul schiebst. So kannst du deine Probleme auf das Raten/Erkennen des korrekten Encodings reduzieren und getrennt angehen. Eventuell hilft dir chardet für das Encoding der CSV-Datei. fs