<p>On Feb 13, 2012 10:13 AM, "Paul Moore" <<a href="mailto:p.f.moore@gmail.com">p.f.moore@gmail.com</a>> wrote:<br>
><br>
> On 13 February 2012 05:12, Stephen J. Turnbull <<a href="mailto:stephen@xemacs.org">stephen@xemacs.org</a>> wrote:<br>
> > Paul Moore writes:<br>
> ><br>
> >  > I'm now 100% convinced that<br>
> >  > encoding="ascii",errors="surrogateescape" is the way to say this in<br>
> >  > code.<br>
> ><br>
> > It probably is, for you.  If that ever gives you a UnicodeError, you<br>
> > know how to find out how to deal with it.  And it probably won't.<wink/><br>
><br>
> And yet, after your earlier posting on latin-1, and your comments<br>
> here, I'm less certain. Thank you so much :-)<br>
><br>
> Seriously, I find these discussions about Unicode immensely useful. I<br>
> now have a much better feel for how to deal with (and think about)<br>
> text in "unknown but mostly ASCII" format, which can only be a good<br>
> thing.<br>
><br>
> > I don't think either argument applies to everybody who needs such a<br>
> > recipe, though.  Many will be best served with encoding='latin-1' by<br>
> > some name.<br>
><br>
> Probably the key question is, how do we encapsulate this debate in a<br>
> simple form suitable for people to find out about *without* feeling<br>
> like they "have to learn all about Unicode"? A note in the Unicode<br>
> HOWTO seems worthwhile, but how to get people to look there? Given<br>
> that this is people who don't want to delve too deeply into Unicode<br>
> issues.<br>
><br>
> Just to be clear, my reluctance to "do the right thing" was *not*<br>
> because I didn't want to understand Unicode - far from it, I'm<br>
> interested in, and inclined towards, "doing Unicode right". The<br>
> problem is that I know enough to realise that "proper" handling of<br>
> files where I don't know the encoding, and it seems to be inconsistent<br>
> sometimes (both between files, and even on occasion within a file), is<br>
> a seriously hard issue. And I don't want to get into really hard<br>
> Unicode issues for what, in practical terms, is a simple problem as<br>
> it's one-off code and minor corruption isn't really an issue.<br>
><br>
> Paul.<br></p>
<p>Adding a url for help in the exception string that points to a python unicode faq sounds like a good idea. <br>
</p>