<div dir="ltr">On Tue, Apr 25, 2017 at 6:27 PM, Charles R Harris <<a href="mailto:charlesr.harris@gmail.com">charlesr.harris@gmail.com</a>> wrote:<br><br>> The maximum length of an UTF-8 character is 4 bytes, so we could use that to size arrays by character length. The advantage over UTF-32 is that it is easily compressible, probably by a factor of 4 in many cases. That doesn't solve the in memory problem, but does have some advantages on disk as well as making for easy display. We could compress it ourselves after encoding by truncation.<br><br>The major use case that we have for a UTF-8 array is HDF5, and it specifies the width in bytes, not Unicode characters.<br><br>--<br>Robert Kern</div>