<div dir="ltr"><br><div class="gmail_extra"><div class="gmail_quote">On Wed, Dec 11, 2013 at 10:35 AM, Ned Batchelder <span dir="ltr"><<a href="mailto:ned@nedbatchelder.com" target="_blank">ned@nedbatchelder.com</a>></span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div class="im">On 12/10/13 6:50 PM, Dan Stromberg wrote:<br>
Now the question becomes: Why did chardet tell me it was windows-1255?  :)<br>
</div>
<br>
It probably told you it was Windows-1252 (I'm assuming the last 5 is a typo).<br>
<br>
Windows-1252 is a super-set of ISO-8859-1, so any text that is correct ISO-8859-1 is also correct Windows-1252.  In addition, it's not uncommon to find text marked as ISO-8859-1 that in fact has characters that make it Windows-1252.<span class=""><font color="#888888"><br>
</font></span></blockquote><div><br> $ chardet mpaa-ratings-reasons.list<br>mpaa-ratings-reasons.list: windows-1255 (confidence: 0.97)<br><br></div><div>I'm aware that chardet is playing guessing games, though one would hope it would guess well most of the time, and give a reasonable confidence rating.<br>
<br></div></div></div></div>