[Python-de] korrekte Darstellung der Umlaute

Andreas Jung lists at zopyx.com
Do Apr 5 09:55:00 CEST 2012


-----BEGIN PGP SIGNED MESSAGE-----
Hash: SHA1

Einige Anmerkungen:

 - werf chardet weg - die Verlässlichkeit von chardet
   ist ungefähr so als würdest du würfeln

 - wenn Du weisst, dass die Daten UTF-8 sind lies die
   Daten via codecs mit utf-8 Encoding (anstatt zu raten).

 - \xc2\xb0 sieht erstmal problematisch aus (wenn ich davon
   ausgehe, dass Dein Text deutscher Text mit deutschen Umlaute ist.
   Die Codepoints für deutsche Umlaut liegen bei \xc3 aber nicht bei \xc2

- -aj


Michael Weber wrote:
> Guten Morgen werte Mitstreiter,
> 
> auch wenn dieses Thema sicherlich bereits zig abertausende Male 
> durchgenudelt wurde, seid bitte so freundlich und ignoriert diese 
> Nachricht nicht. Ich hab nur nen kleines Verständnisproblem.
> 
> Also. Ich les per codecs.open und der Codierung utf8 Daten aus einer 
> Datei ein. Funzt auch. Dann liegen die im Unicode vor. Jetzt bin ich 
> einfach rangegangen und habe die einzelnen Unicode-Werte
> aufgedröselt und hab sie einer Variable zugewiesen, wobei ich
> gleichzeitig ein Encode mit z.B. utf-8 mache. Funzt auch soweit,
> siehe nachfolgendem Code:
> 
> 
> try: d = open(filename, "r") d_temp = d.read() file_encoding_temp =
> chardet.detect(d_temp) file_encoding =
> file_encoding_temp['encoding'] d.close()
> 
> d = codecs.open(filename,"r",file_encoding.lower()) except: print
> text_codes(0, "")
> 
> allezeilen = d.readlines() d.close()
> 
> for zeile in allezeilen:
> 
> if "=" in zeile: tmp = () tmp = zeile.split("=", 1) index =
> tmp[0].encode("utf-8") inhalt = tmp[1].encode("utf-8") 
> config[index.strip().lower()] = inhalt.strip()
> 
> 
> ABER: jetzt steht in der Zielvariable "inhalt" ein Bytestring in der 
> Form "\xc3\xb6t\xc2\xb0\xc3\x84", was die UTF-8-Codierung für "öt°Ä" 
> ist. Wenn ich das Zeug per Print ausgebe steht es richtig leserlich
> da. In der Variable steht hingegen halt "\xc3\xb6t\xc2\xb0\xc3\x84".
> 
> Und jetzt die Frage: Muss das so?? Oder kann man nicht eher
> erwarten, dass es die "leserliche" Variante direkt in der Variable
> speichert?
> 
> Ich weiß, dass es ziemlich beschissen beschrieben ist. Aber ich
> hoffe auf eine kleine Antwort. Ganz herzlichen Dank schonmal.
> 
> Gruß Michael _______________________________________________ 
> python-de maillist  -  python-de at python.org 
> http://mail.python.org/mailman/listinfo/python-de

- -- 
ZOPYX Limited           | zopyx group
Charlottenstr. 37/1     | The full-service network for Zope & Plone
D-72070 Tübingen        | Produce & Publish
www.zopyx.com           | www.produce-and-publish.com
- ------------------------------------------------------------------------
E-Publishing, Python, Zope & Plone development, Consulting


-----BEGIN PGP SIGNATURE-----
Version: GnuPG v1.4.11 (Darwin)
Comment: Using GnuPG with Mozilla - http://enigmail.mozdev.org/

iQGUBAEBAgAGBQJPfU/UAAoJEADcfz7u4AZjCFwLv3pY36GklxJnwH+5p/GPvdTk
omspUOxJRxrSjHN7VhJN9hRN1YSSCzyEdFuPbGzkVl1j2dtX9JZx7E7rKGrVsvys
0w2C/66/FODHTN/eu9XuhRwNg9FfrlxGkfXXM75kOSLpNiESHVRWEHnhHGJukPcp
MNxAzz52YmjXkXN8RZKFsemZxeWjs9tbeGRFUzjAJfxB3LJluBh9GtZ+uwruUxzj
qAv9rAaQ7e5CsuCXOoaQqC1Ovkci7Z/BxfgZTmpbpSM91bcq6W4tX7phPdKPT5+D
toJjqZz+6QA8axhFckqDAUqF8M7As8Q9a8US4Okfmkl6YgDvM+5WVq/7MgAVZ2/I
770sk9X04EIyBcy8ARe/log/buZ0RhpRjT9cC9NokTCic/NGaxsEOW492DU2WweC
EGKwi8sh26nf8p2bUycNDoCViZWBeCLihZS7aYjS6rkfdooNw9cwEzKAPyHmBnZE
/su2rXLrQntO1hRFE1OgAXuvF5x6Mzk=
=set6
-----END PGP SIGNATURE-----
-------------- nächster Teil --------------
Ein Dateianhang mit Binärdaten wurde abgetrennt...
Dateiname   : lists.vcf
Dateityp    : text/x-vcard
Dateigröße  : 310 bytes
Beschreibung: nicht verfügbar
URL         : <http://mail.python.org/pipermail/python-de/attachments/20120405/3f178f40/attachment.vcf>


Mehr Informationen über die Mailingliste python-de