<div dir="ltr"><div class="gmail_extra"><div class="gmail_quote">On Fri, Jan 10, 2014 at 9:13 PM, Juraj Sukop <span dir="ltr"><<a href="mailto:juraj.sukop@gmail.com" target="_blank">juraj.sukop@gmail.com</a>></span> wrote:<br>

<blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex"><div dir="ltr"><br><div class="gmail_extra"><br><br><div class="gmail_quote">

<div class="im">On Sat, Jan 11, 2014 at 12:49 AM, Antoine Pitrou <span dir="ltr"><<a href="mailto:solipsis@pitrou.net" target="_blank">solipsis@pitrou.net</a>></span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex"><div><span style="color:rgb(34,34,34)">Also, when you say you've never encountered UTF-16 text in PDFs, it</span><br>


</div>
sounds like those people who've never encountered any non-ASCII data in<br>
their programs.</blockquote><div><br></div></div><div>Let me clarify: one does not think in "writing text in Unicode"-terms in PDF. Instead, one records the sequence of "character codes" which correspond to "glyphs" or the glyph IDs directly. That's because one Unicode character may have more than one glyph and more characters can be shown as one glyph.</div>


</div></div></div>
<br><br></blockquote><div class="gmail_quote"><br></div>AFAIK (and just for the record), there could be both Latin1 text and UTF-16 in a PDF (and other encodings too), depending on the font used:</div><div class="gmail_quote">

<br></div><div class="gmail_quote">/Encoding /WinAnsiEncoding (mostly latin1 "standard" fonts)</div><div class="gmail_quote">/Encoding /Identity-H (generally for unicode UTF-16 True Type "embedded" fonts)<br>

</div><div class="gmail_quote"><br></div><div class="gmail_quote">For example, in PyFPDF (a PHP library ported to python), the following code writes out text that could be encoded in two different encodings:</div><div class="gmail_quote">

<br></div><div class="gmail_quote">s = sprintf("BT %.2f %.2f Td (%s) Tj ET", x*self.k, (self.h-y)*self.k, txt)<br class=""><br><a href="https://code.google.com/p/pyfpdf/source/browse/fpdf/fpdf.py#602">https://code.google.com/p/pyfpdf/source/browse/fpdf/fpdf.py#602</a></div>

<div class="gmail_quote"><br></div><div class="gmail_quote">In Python2, txt is just a str, but in Python3 handling everything as latin1 string obviously doesn't work for TTF in this case.</div><div class="gmail_quote">

<br></div><div class="gmail_quote">Best regards</div><div class="gmail_quote"><br clear="all"><div>Mariano Reingart<br><a href="http://www.sistemasagiles.com.ar">http://www.sistemasagiles.com.ar</a><br><a href="http://reingart.blogspot.com">http://reingart.blogspot.com</a></div>

<br><div> </div></div><br></div></div>