<div dir="ltr"><div class="gmail_extra"><div class="gmail_quote">On Mon, Aug 11, 2014 at 6:56 AM, Wes Turner <span dir="ltr"><<a href="mailto:wes.turner@gmail.com" target="_blank">wes.turner@gmail.com</a>></span> wrote:<br>

<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div id=":2p6" class="a3s" style="overflow:hidden">This [2] seems to suggest that anything that isn't a buffer,<br>


str/bytes, or numpy array is pickled and copied.<br></div></blockquote><div><br></div><div>That is indeed correct.</div><div> </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">

<div id=":2p6" class="a3s" style="overflow:hidden">
Would it be faster to ETL into something like HDF5 (e.g. w/<br>
Pandas/PyTables) and just synchronize the dataset URI?</div></blockquote></div><br>Absolutely.</div><div class="gmail_extra"><br></div><div class="gmail_extra">IPython.parallel is NOT the right tool to use to move large amounts of data around between machines. It's an important problem in parallel/distributed computing, but also a very challenging one that is beyond our scope and resources.</div>

<div class="gmail_extra"><br></div><div class="gmail_extra">When using IPython.parallel, you should think of it as a good way to </div><div class="gmail_extra"><br></div><div class="gmail_extra">- coordinate computation</div>

<div class="gmail_extra">- move code around</div><div class="gmail_extra">- move *small* data around</div><div class="gmail_extra">- have interactive control in parallel settings</div><div class="gmail_extra"><br></div><div class="gmail_extra">

But you should have a non-IPython strategy for moving big chunks of data around. The right answer to that question will vary from one context to another. In some cases a simple NFS mount may be enough, elsewhere something like Hadoop FS or Disco FS may work, or a well-sharded database, or whatever.</div>

<div class="gmail_extra"><br></div><div class="gmail_extra">But it's simply a problem that we consider orthogonal to what IPython.parallel can do well.</div><div class="gmail_extra"><br></div><div class="gmail_extra">

Hope this helps,</div><div class="gmail_extra"><br></div><div class="gmail_extra">f<br><br clear="all"><div><br></div>-- <br>Fernando Perez (@fperez_org; <a href="http://fperez.org" target="_blank">http://fperez.org</a>)<br>

fperez.net-at-gmail: mailing lists only (I ignore this when swamped!)<br>fernando.perez-at-berkeley: contact me here for any direct mail<br>
</div></div>