
April 10, 2012
5:19 a.m.
Michael Weber wrote:
ich bin selber gerade schmerzlicher weise zur Erkenntnis gekommen, dass chardet nicht wirklich sinnvoll ist. Gerade wurde ein ISO-8859-1 als EUC-KR-Encoding angesehen. Da kommt dann natürlich ausgesprochener Müll bei raus. Aber gut.
Zumindest weiß ich jetzt, was ich nicht nehme.
Für Hinweise bin ich jederzeit offen.
Es geht einfach nicht wirklich automatisiert. Es gibt letztlich nur zwei Möglichkeiten: 1. In der Schnittstelle (konfigurierbar) das Encoding der Eingabedaten festlegen. 2. Encoding raten und dann das geratene Encoding dem Benutzer interaktiv zur Korrektur vorlegen (z.B. wie der manuell beeinflussbare CSV-Import in Excel/Libreoffice etc.). Ciao, Michael.