Hi All,<div><br></div><div>I was going through some of the open issues related to &#39;tokenize&#39; and ran across &#39;issue2180&#39;.  The reproduction case for this issue is along the lines of:</div><div><br></div><div>
 <span class="Apple-style-span" style="font-family: monospace; font-size: 12px; line-height: 17px; white-space: pre-wrap; ">   &gt;&gt;&gt; tokenize.tokenize(io.StringIO(&quot;if 1:\n  \\\n  #hey\n  print 1&quot;).readline)</span></div>
<div><br></div><div>but, with &#39;py3k&#39; I get:</div><div><br></div><div><div>    &gt;&gt;&gt; tokenize.tokenize(io.StringIO(&quot;if 1:\n  \\\n  #hey\n  print 1&quot;).readline)</div><div>    Traceback (most recent call last):</div>
<div>      File &quot;&lt;stdin&gt;&quot;, line 1, in &lt;module&gt;</div><div>      File &quot;/Users/minge/Code/python/py3k/Lib/tokenize.py&quot;, line 360, in tokenize</div><div>        encoding, consumed = detect_encoding(readline)</div>
<div>      File &quot;/Users/minge/Code/python/py3k/Lib/tokenize.py&quot;, line 316, in detect_encoding</div><div>        if first.startswith(BOM_UTF8):</div><div>    TypeError: Can&#39;t convert &#39;bytes&#39; object to str implicitly</div>
<div><br></div><div>which, as seen in the trace, is because the &#39;detect_encoding&#39; function in &#39;Lib/tokenize.py&#39; searches for &#39;BOM_UTF8&#39; (a &#39;bytes&#39; object) in the string to tokenize &#39;first&#39; (a &#39;str&#39; object).  It seems to me that strings should still be able to be tokenized, but maybe I am missing something.</div>
<div><br></div><div>Is the implementation of &#39;detect_encoding&#39; correct in how it attempts to determine an encoding or should I open an issue for this?</div><div><br></div>---<br>Meador<br>
</div>