<div dir="auto"><div><div class="gmail_extra"><div class="gmail_quote">On Apr 26, 2017 9:30 AM, "Chris Barker - NOAA Federal" <<a href="mailto:chris.barker@noaa.gov">chris.barker@noaa.gov</a>> wrote:<blockquote class="quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div class="quoted-text">
<br>
</div>UTF-8 does not match the character-oriented Python text model. Plenty<br>
of people argue that that isn't the "correct" model for Unicode text<br>
-- maybe so, but it is the model python 3 has chosen. I wrote a much<br>
longer rant about that earlier.<br>
<br>
So I think the easy to access, and particularly defaults, numpy string<br>
dtypes should match it.<br></blockquote></div></div></div><div dir="auto"><br></div><div dir="auto">This seems a little vague? The "character-oriented Python text model" is just that str supports O(1) indexing of characters. But... Numpy doesn't. If you want to access individual characters inside a string inside an array, you have to pull out the scalar first, at which point the data is copied and boxed into a Python object anyway, using whatever representation the interpreter prefers. So AFAICT​ it makes literally no difference to the user whether numpy's internal representation allows for fast character access.</div><div dir="auto"><br></div><div dir="auto">-n</div></div>