Hi all,<br><br>My first post to the list. In fact, first time Python hacker, long-time Python user though. (Melbourne, Australia).<br><br>Some of you may have seen for the past week or so my bug report on Roundup,<br><a href="http://bugs.python.org/issue3300">http://bugs.python.org/issue3300</a><br>
<br>I&#39;ve spent a heap of effort on this patch now so I&#39;d really like to get some more opinions and have this patch considered for Python 3.0.<br><br>Basically, urllib.quote and unquote seem not to have been updated since Python 2.5, and because of this they implicitly perform Latin-1 encoding and decoding (with respect to percent-encoded characters). I think they should default to UTF-8 for a number of reasons, including that&#39;s what other software such as web browsers use.<br>
<br>I&#39;ve submitted a patch which fixes quote and unquote to use UTF-8 by default. I also added extra arguments allowing the caller to choose the encoding (after discussion, there was some consensus that this would be beneficial). I have now completed updating the documentation, writing extensive test cases, and testing the rest of the standard library for code breakage - with the result being there wasn&#39;t really any, everything seems to just work nicely with UTF-8. You can read the sordid details of my investigation in the tracker.<br>
<br>Firstly, it&#39;d be nice to hear if people think this is desirable behaviour. Secondly, if it&#39;s feasible to get this patch in Python 3.0. (I think if it were delayed to Python 3.1, the code breakage wouldn&#39;t justify it). And thirdly, if the first two are positive, if anyone would like to review this patch and check it in.<br>
<br>I have extensively tested it, and am now pretty confident that it won&#39;t cause any grief if it&#39;s checked in.<br><br>Thanks very much,<br>Matt Giuca<br>