<br><br><div class="gmail_quote">On 11 February 2012 21:24, Paul Moore <span dir="ltr"><<a href="mailto:p.f.moore@gmail.com">p.f.moore@gmail.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<div id=":38c"> What I *don't* know is what those funny bits of<br>
mojibake I see in the text editor are.</div></blockquote></div><br><div>So, do yourself and to us, "the rest of the world", a favor, and open the file in binary mode. </div><div><br></div><div>Also, I'd suggest you and anyone being picky about encoding to read <a href="http://www.joelonsoftware.com/articles/Unicode.html">http://www.joelonsoftware.com/articles/Unicode.html</a> so you can finally have in your mind that *** ASCII is not text *** .</div>
<div><br></div><div>It used to be text when to get to non-[A-Z|a-z] text you had to have someone recording a file in  a tape, pack it in the luggage, and take a plane to "overseas" to the U.S.A. . That is not the case anymore, and that, as far as I understand, is the reasoning to Python 3 to default to unicode. </div>
<div><br></div><div>Anyone can work "ignoring text" and treating bytes as bytes, opening a file in binary mode. You can use "os.linesep" instead of a hard-coded "\n" to overcome linebreaking. (Of course you might accidentally break a line inside a multi-byte character in some enconding, since you prefer to ignore them altogether, but it should be rare).</div>
<div><br></div><div>  js</div><div> -><-</div>