
Hallo Martin,
Diese Prinzipien halte ich nicht für undurchsichtig - deshalb die Bitte, näher zu erläutern.
nun, wenn ich die undurchsichtigen genau Stellen kennen würde, dann wäre es ja nicht undurchsichtig! ;-)
Aber, fällt es Dir nicht auf, wie oft dazu Fragen auftauchen, auch in c.l.p? Da ja auch häufig von Dir dazu Antworten kommen, müßte es Dir auffallen ;-) Und wie sich da lange Diskussionen hin + her entwickeln, die aber eigentlich nicht zu eindeutigen Antworten führen.
Die Unicode-Implementierung folgt einigen wenigen klaren Prinzipien:
Die Regeln sind, glaube ich, weitgehend klar. Du bist aber nicht auf die Ausnahmen+Sonderregeln eingegangen. Gerade das wäre interessant. Wie Du hier und da schon erwähnt hast, wurde dies+das aus Gründen der Rückwärtskompatibilität eingebaut, damit alte Scripte weiter laufen. (Stichworte: Tkinter, das mal Bytestrings, mal Unicode zurückgibt, Textdateien, die sich ohne Encoding-Angabe lesen/schreiben lassen. Vermutlich noch andere Stellen, die ich noch nicht kenne (achja, was ist mit Filefunktion (open() usw.) bezgl. der Pfad/Filenamen mit Encoding? Irgendwas automatisch?)).
Mein Wunsch wäre, eine Liste mit allen diesen Ausnahmen. Das wäre bestimmt sehr hilfreich. Wo genau wird was wegen Rückwärtskompatibel gemacht? Schon mal Danke!
PS: Die Tkinter-Eigenheit führt zB auch in IDLE zu Bugs. Wenn Unicode doch so klar und "durchsichtig" ist, warum passieren dann sogar den Entwicklern der Sprache solche Fehler? Für mich sind das Hinweise, das was "undurchsichtig" ist.