On 9/15/06, <b class="gmail_sendername">Antoine Pitrou</b> &lt;<a href="mailto:solipsis@pitrou.net" target="_blank" onclick="return top.js.OpenExtLink(window,event,this)">solipsis@pitrou.net</a>&gt; wrote:<div><span class="gmail_quote">
</span><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
Le vendredi 15 septembre 2006 à 10:48 -0700, Josiah Carlson a écrit :<br>&gt; This is one of the reasons why I was talking Latin-1, UCS-2, and UCS-4:<br><br>You could replace &quot;latin-1&quot; with &quot;one-byte system encoding chosen at
<br>interpreter startup depending on locale&quot;.<br>There are lots of 8-bit encodings other than iso-8859-1.<br>(for example, my current locale uses iso-8859-15)<br><br>The algorithm for choosing the one-byte encoding could be:
<br>- if the current locale uses an one-byte encoding, use that encoding<br>- otherwise, if current locale language has a popular one-byte encoding<br>(for many languages this would mean iso-8859-&lt;X&gt;), use that encoding
<br>- otherwise, no one-byte encoding<br><br>This would ensure that, for example, Russian text on a system configured<br>with a Russian locale does not always end up using two bytes per<br>character internally.</blockquote>

<div><br>I do not believe that this extra complexity will be valuable in the long-term because most Europeans will switch to UTF-8 locales over the next five years. The current situation makes no sense. Think about it from the end-user's point of view: 
<br><br>&quot;You can use KOI8-R/ISO-8859-? or UTF-8.<br><br>Pro for KOI8-R: <br><br>1. text files will use 0.8% instead of 1% of your hard disk space.<br>2. backwards compatibility<br><br>Pro for UTF-8:<br><br>1. Better compatibility with new software
<br>2. Easier to share files across geographic boundaries<br>3. Ability to encode characters from other character sets<br>4. Access to characters like smart quotes, wingdings, fractions and so forth.<br>&quot;<br><br>The result seems obvious to me...8-bit-fixed encodings are a terrible idea and need to just go away. Let's not build them into Python's core on the basis of a minor and fleeting performance improvement.
<br><br>&nbsp;Paul Prescod<br><br></div></div>