<table cellspacing="0" cellpadding="0" border="0" ><tr><td valign="top" style="font: inherit;"><DIV>Hi,</DIV>
<DIV>&nbsp;</DIV>
<DIV>I'm parsing an xml file using elementtree, but it seems to get stuck on certain non-ascii characters (for example: ""). I'm using Python 2.4. Here's the relevant code fragment:</DIV>
<DIV>&nbsp;</DIV>
<DIV># CODE:</DIV>
<DIV>for element in doc.getiterator():<BR>&nbsp; try:<BR>&nbsp;&nbsp;&nbsp;&nbsp;m = re.match(search_text, str(element.text))<BR>&nbsp; except UnicodeEncodeError:<BR>&nbsp;&nbsp;&nbsp; raise # I want to get rid of this exception.<BR></DIV>
<DIV># PRINTBACK:</DIV>
<DIV>&nbsp;&nbsp;&nbsp;&nbsp;m = re.match(search_text, str(element.text))<BR>UnicodeEncodeError: 'ascii' codec can't encode character u'\xea' in position 4: ordinal not in range(128)</DIV>
<DIV>&nbsp;</DIV>
<DIV>How can I get rid of this unicode encode error. I tried:</DIV>
<DIV>s = str(element.text)</DIV>
<DIV>s.encode("utf-8")</DIV>
<DIV>(and then feeding it into the regex)</DIV>
<DIV>&nbsp;</DIV>
<DIV>The xml file is in UTF-8. Somehow I need to tell the program not to use ascii but utf-8, right?</DIV>
<DIV>&nbsp;</DIV>
<DIV>Thanks in advance!</DIV>
<DIV><BR>Cheers!!<BR>Albert-Jan<BR><BR>~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~<BR>In the face of ambiguity, refuse the temptation to guess.<BR>~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~</DIV></td></tr></table><br>