<div dir="ltr">Nice come-back! Responses inline.<br><div class="gmail_extra"><br><div class="gmail_quote">On Tue, Apr 1, 2014 at 6:26 AM, Nick Coghlan <span dir="ltr"><<a href="mailto:ncoghlan@gmail.com" target="_blank">ncoghlan@gmail.com</a>></span> wrote:<br>

<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div class="">On 31 March 2014 02:05, Guido van Rossum <<a href="mailto:guido@python.org">guido@python.org</a>> wrote:<br>


> On Sat, Mar 29, 2014 at 7:17 PM, Nick Coghlan <<a href="mailto:ncoghlan@gmail.com">ncoghlan@gmail.com</a>> wrote:<br>
</div></blockquote><div> [...]</div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div class="">
>> Background<br>
>> ==========<br>
>><br>
>> Over the course of Python 3's evolution, a number of adjustments have been<br>
>> made to the core ``bytes`` and ``bytearray`` types as additional practical<br>
>> experience was gained with using them in code beyond the Python 3 standard<br>
>> library and test suite. However, to date, these changes have been made<br>
>> on a relatively ad hoc tactical basis as specific issues were identified,<br>
>> rather than as part of a systematic review of the APIs of these types.<br>
><br>
> I'm not sure you can claim that. We probably have more information based on<br>
> experience now than when we did the redesign. (At that time most experience<br>
> was based on using str() for binary data.)<br>
<br>
</div>Yeah, I was mostly thinking of the change to make the search APIs<br>
accept both integers and subsequences when I wrote that. I'll try to<br>
think of a better way of wording it.<br></blockquote><div><br></div><div>That might have felt ad-hoc, but it was in line with the idea that bytes follow the patterns of both tuple and string. (And similar for bytearray.)<br>

</div><div> </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
I also realised in reviewing the docs that a key part of the problem<br>
may actually be a shortcut I took in the sequence docs rewrite that I<br>
did quite a while ago now - the bytes/bytearray docs are currently<br>
written in terms of *how they differ from str*. They don't really<br>
cover the "container of integers" aspect particularly well. I now<br>
believe a better way to tackle that would to be upfront that these<br>
types basically have two APIs on a single class: their core tuple/list<br>
of integers "arbitrary binary data" API, and then the str-inspired<br>
"binary data with ASCII segments" API on top of that.<br></blockquote><div><br></div><div>Right, and then you can follow up with details about how the APIs differ from their equivalents in tuple and string. I imagine there are three categories here (some may be empty): APIs that are the union of the corresponding tuple and string APIs;  APIs that are like one of the "base" classes with some restrictions or extensions that can't be explained by referring to the other "base"; and APIs that are unique to bytes.<br>

</div><div>  <br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div class="">
>> This<br>
>> approach has allowed inconsistencies to creep into the API design as to<br>
>> which<br>
>> input types are accepted by different methods. Additional inconsistencies<br>
>> linger from an earlier pre-release design where there was *no* separate<br>
>> ``bytearray`` type, and instead the core ``bytes`` type was mutable (with<br>
>> no immutable counterpart), as well as from the origins of these types in<br>
>> the text-like behaviour of the Python 2 ``str`` type.<br>
><br>
> You make it sound as if modeling bytes() after Python 2's str() was an<br>
> accident. It wasn't.<br>
<br>
</div>Sorry, didn't mean to imply that. More that we hadn't previously sat<br>
down and thought through how best to clearly articulate this in the<br>
docs, and hence some of the current inconsistencies hadn't become<br>
clear.<br><div class=""></div></blockquote><div><br></div><div>Heh, I get defensive when you say bad things about the language. Not so much about the docs (too often I don't know what's in the docs myself because my knowledge predates the docs :-).<br>

</div><div> </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div class="">
>> This PEP aims to provide the missing systematic review, with the goal of<br>
>> ensuring that wherever feasible (given backwards compatibility<br>
>> constraints)<br>
>> these current inconsistencies are addressed for the Python 3.5 release.<br>
><br>
> I would like to convince you to aim lower, drop the "systematic review", and<br>
> just focus on some changes that are likely to improve users' experience<br>
> (which includes porting Python 2 code).<br>
<br>
</div>After re-reading the current docs (which I also wrote, but this aspect<br>
was a mere afterthought at the time), I'm thinking a useful course of<br>
action in parallel with this PEP will be for me to work on improving<br>
the Python 3.4 docs for these types. The bits I find too hard to<br>
explain then become fodder for tweaks in 3.5.<br></blockquote><div><br></div><div>I am very much in favor of this approach. Many API improvements I've made myself have come from attempts to write documentation, and I imagine I'm not unique.<br>

</div><div> </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
>> Proposals<br>
>> =========<br>
<div class=""><br>
>> * more consistently accepting length 1 ``bytes`` objects as input where an<br>
>>   integer between ``0`` and ``255`` inclusive is expected, and vice-versa<br>
><br>
><br>
> Not sure I like this as a goal. OK, stronger: I don't like this goal.<br>
<br>
</div>Roger. As noted above, I now think we can address this by splitting<br>
the API documentation instead, so that there's a clear "tuple/list of<br>
ints" section and a "binary data with ASCII segments" section. Some<br>
hybrid APIs (like the search ones) may appear in both. In terms of<br>
analogies to other types:<br>
<br>
Behaviour is common to tuple + str: hybrid API for bytes + bytearray<br>
Behaviour is list-only: int-only API for bytearray<br>
Behaviour is str-only: str-like only API for bytes + bytearray<br></blockquote><div><br></div><div>Heh, I think I just accidentally reinvented that same categorization above. :-)<br> <br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">


Now that I've framed the question that way, I think I can not only<br>
make it make sense in the docs, but I believe the 3.4 behaviour is<br>
already pretty close to consistent with it.<br>
<br>
The proposed bytes.byte() constructor would then more cleanly handle<br>
the few cases where it may be desirable to pass an int to a str-like<br>
API (such as replace())<br>
<div class=""><br>
>> * allowing users to easily convert integer output to a length 1 ``bytes``<br>
>>   object<br>
><br>
> I think you meant integer values instead of output?<br>
<br>
</div>Sort of - I was thinking of reversing the effects of indexing here.<br>
That is, replacing the current:<br>
<br>
    x = data[0:1]<br>
<br>
with:<br>
<div class=""><br>
    x = bytes.byte(data[0])<br></div></blockquote><div> <br></div><div>Hm. I don't find that very attractive. You can't write Python 2/3 code using that idiom, and it's a lot longer than the original. The only redeeming feature is that it clearly fails when data is empty, and possibly that you don't have to compute the second index (which could be awkward if the first index is an expression).<br>

<br>I'm not denying that we need bytes.byte(), but this doesn't sound like much of a motivation. Just pointing to the need of bytes/bytestring equivalents for chr() makes more sense to me.<br></div><div> </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">

<div class="">
</div><div class="">> In Python 2 we did this<br>
> with the global function chr(), but in Python 3 that creates a str(). (The<br>
> history of chr() and ord() as built-in functions is that they long predates<br>
> the notion of methods (class- or otherwise), and their naming comes straight<br>
> from Pascal.)<br>
><br>
> Anyway, I don't know that the use case is so common that it needs more than<br>
> bytes([i]) or bytearray([i]) -- if there is an argument to be made for<br>
> bytes.byte(i) and bytearray.byte(i) it would be that the [i] in the<br>
> constructor is somewhat hard to grasp.<br>
<br>
</div>Since I was mostly thinking about an alternative to slicing to convert<br>
an index lookup back to a bytes object, this doesn't seem appealing to<br>
me:<br>
<br>
    x = bytes([data[0]])<br></blockquote><div><br></div><div>Fair enough.<br> <br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
The other one is that "bytes([i])" doesn't play nice with higher order<br>
functions like map.<br></blockquote><div><br></div><div>Also fair enough; having to define a helper function feels bad. All in all, I do think we need bytes.byte() and bytearray.byte(). We may just have to fine-tune the motivation a bit. :-)<br>

</div><div> </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
I don't expect wanting this to be *hugely* common, but I do think<br>
there's value in having the primitive conversion operation implied by<br>
the constructor behaviour available as a Python level operation.<br><div class=""></div></blockquote><div><br></div><div>Yes.<br> <br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">

<div class="">
>> Alternate Constructors<br>
>> ----------------------<br>
>><br>
>> The ``bytes`` and ``bytearray`` constructors currently accept an integer<br>
>> argument, but interpret it to mean a zero-filled object of the given<br>
>> length.<br>
><br>
><br>
> This is one of the two legacies of the original "mutable bytes" design, and<br>
> I agree we should strive to replace it -- although I think one round of<br>
> deprecation may be too quick.<br>
<br>
</div>Postponing removal to 3.7 or indefinitely is fine by me.<br>
<br>
While I think it should go away, I'm in no hurry to get rid of it - it<br>
started bothering me less once I realised you can already safely call<br>
bytes on arbitrary objects by passing them through memoryview first<br>
(as that doesn't have the mutable legacy that causes problems with<br>
integer input).<br></blockquote><div><br></div><div>I'm not sure I quite see the use case. memoryview() doesn't take "arbitrary objects" -- it takes objects that implement the buffer protocol (if that's still the name :-). Are you saying that the advantage of going through memoryview() is that it fails fast when you accidentally pass it an integer(-like object)?<br>

</div><div> <br>
</div><div>[...] <br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div class="">
>> For ``bytearray``, a ``from_len`` constructor is proposed that<br>
>> preallocates<br>
>> the buffer filled with a particular value (default to ``0``) as a direct<br>
>> replacement for the current constructor behaviour, rather than having to<br>
>> use<br>
>> sequence repetition to achieve the same effect in a less intuitive way::<br>
>><br>
>>     >>> bytearray.from_len(3)<br>
>>     bytearray(b'\x00\x00\x00')<br>
>>     >>> bytearray.from_len(3, 6)<br>
>>     bytearray(b'\x06\x06\x06')<br>
>><br>
>> This part of the proposal was covered by an existing issue<br>
>> [empty-buffer-issue]_ and a variety of names have been proposed<br>
>> (``empty_buffer``, ``zeros``, ``zeroes``, ``allnull``, ``fill``). The<br>
>> specific name currently proposed was chosen by analogy with<br>
>> ``dict.fromkeys()`` and ``itertools.chain.from_iter()`` to be completely<br>
>> explicit that it is an alternate constructor rather than an in-place<br>
>> mutation, as well as how it differs from the standard constructor.<br>
><br>
> I think you need to brainstorm more on the name; from_len() looks pretty<br>
> awkward. And I think it's better to add it to bytes() as well, since the two<br>
> classes intentionally try to be as similar as possible.<br>
<br>
</div>I initially liked Barry's "fill" suggestion, but then realised it read<br>
too much like an in-place operation (at least to my mind). Here are<br>
some examples (using Brett's suggestion of a keyword only second<br>
parameter):<br>
<br>
    bytearray.zeros(3) # NumPy spelling, no configurable fill value<br>
    bytearray.fill(3)<br>
    bytearray.fill(3, fillvalue=6)<br>
    bytearray.filled(3)<br>
    bytearray.filled(3, fillvalue=6)<br>
<br>
To be honest, I'm actually coming around to the "just copy the 'zeros'<br>
name from NumPy and call it done" view on this one. I don't have a<br>
concrete use case for a custom fill value, and I think I'll learn<br>
quickly enough that it uses the shorter spelling.<br></blockquote><div><br>+1 <br></div><div> </div><div>[...] <br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">

<div class="">
>> * ``bytes.byte()`` is defined above as accepting length 1 binary sequences<br>
>>   as individual bytes, but this is currently inconsistent with the main<br>
>>   ``bytes`` constructor::<br>
>><br>
>>       >>> bytes([b"a", b"b", b"c"])<br>
>>       Traceback (most recent call last):<br>
>>         File "<stdin>", line 1, in <module><br>
>>       TypeError: 'bytes' object cannot be interpreted as an integer<br>
>><br>
>>   Should the ``bytes`` constructor be changed to accept iterables of<br>
>> length 1<br>
>>   bytes objects in addition to iterables of integers? If so, should it<br>
>>   allow a mixture of the two in a single iterable?<br>
><br>
> Noooooooooooooooooooooooooo!!!!!<br>
<br>
</div>Yeah, it bothered me, too :)<br>
<br>
As you suggest, I think it makes sense to extrapolate this the other<br>
way and change the definition of bytes.byte() to be a true inverse of<br>
ord() for binary data.<br>
</blockquote><div><br>+1 <br></div><div> </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div class="">
>> Iteration<br>
>> ---------<br>
>><br>
>> Iteration over ``bytes`` objects and other binary sequences produces<br>
>> integers. Rather than proposing a new method that would need to be added<br>
>> not only to ``bytes``, ``bytearray`` and ``memoryview``, but potentially<br>
>> to third party types as well, this PEP proposes that iteration to produce<br>
>> length 1 ``bytes`` objects instead be handled by combining ``map`` with<br>
>> the new ``bytes.byte()`` alternate constructor proposed above::<br>
>><br>
>>     for x in map(bytes.byte, data):<br>
>>         # x is a length 1 ``bytes`` object, rather than an integer<br>
>>         # This works with *any* container of integers in the range<br>
>>         # 0 to 255 inclusive<br>
><br>
> I can see why you don't like a new method, but this idiom is way too verbose<br>
> and unintuitive to ever gain traction. Let's just add a new method to all<br>
> three types, 3rd party types will get the message.<br>
<br>
</div>Fair enough. Is "iterbytes()" OK as the name?:<br>
<br>
    for x in date.iterbytes():<br>
<div class="">        # x is a length 1 ``bytes`` object, rather than an integer<br>
        # This works with *any* container of integers in the range<br>
        # 0 to 255 inclusive<br></div></blockquote><div><br>+1 <br></div><div> </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div class="">
</div><div class="">>> Consistent support for different input types<br>
>> --------------------------------------------<br>
>><br>
>> In Python 3.3, the binary search operations (``in``, ``count()``,<br>
>> ``find()``, ``index()``, ``rfind()`` and ``rindex()``) were updated to<br>
>> accept integers in the range 0 to 255 (inclusive) as their first argument<br>
>> (in addition to the existing support for binary sequences).<br>
><br>
><br>
> I wonder if that wasn't a bit over-zealous. While 'in', count() and index()<br>
> are sequence methods (looking for elements) that have an extended meaning<br>
> (looking for substrings) for string types, the find() and r*() variants are<br>
> only defined for strings.<br>
<br>
</div>I suspect they're using the same underlying search code, although I<br>
haven't actually checked.<br></blockquote><div><br></div><div>OK, it's water under the bridge anyway. <br></div><div> <br></div><div>[...] <br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">


"replace()" seems like the only one where a reasonable case might be<br>
made to allowing integer input (and that's actually the one Brandon<br>
was asking about that got me thinking along these lines in the first<br>
place).<br></blockquote><div><br></div><div>I think not. It really works on substrings, length-one strings are just a common case. <br></div><div> </div><div>[...] <br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">


I'm not sure when I'll get the PEP updated (since this isn't an urgent<br>
problem, I just wanted to get the initial draft of the PEP written<br>
while the problem was fresh in my mind), but I think the end result<br>
should be relatively non-controversial once I incorporate your<br>
feedback.<br clear="all"></blockquote><div><br></div><div>No hurries. And you're welcome! <br></div></div><br>-- <br>--Guido van Rossum (<a href="http://python.org/~guido">python.org/~guido</a>)
</div></div>