Starmap will serialize/deserialize the “big object” once for each task created, so this is not performant. The goal is to pay the “one time cost” of serialization of the “big object”, and still pass this object to func at each iteration.<br><div class="gmail_quote"><div dir="ltr">On Thu, Oct 4, 2018 at 4:14 AM Michael Selik <<a href="mailto:mike@selik.org">mike@selik.org</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="auto"><div>You don't like using Pool.starmap and itertools.repeat or a comprehension that repeats an object?</div></div><div dir="auto"><div><br><br><br><div class="gmail_quote"><div dir="ltr">On Wed, Oct 3, 2018, 6:30 PM Sean Harrington <<a href="mailto:seanharr11@gmail.com" rel="noreferrer" target="_blank">seanharr11@gmail.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr"><div>Hi guys -</div><div><br></div><div>The solution to "lazily initialize" an expensive object in the worker process (i.e. via @lru_cache) is a great solution (that I must admit I did not think of). Additionally, in the second use case of "<i>passing a large object to each worker process</i>", I also agree with your suggestion to "shelter functions in a different module to avoid exposure to globals" as a good solution if one is wary of globals.</div><div><div><br></div><div>That said, I still think "<i>passing a large object from parent process to worker processes</i>" should be easier when using Pool. Would either of you be open to something like the following?</div><div><br></div><div>           def func(x, big_cache=None):</div><div>               return big_cache[x]</div><div><br></div><div>           big_cache =  { str(k): k for k in range(10000) }</div><div><br></div><div>           ls = [ i for i in range(1000) ]</div><div><br></div><div><blockquote style="margin:0 0 0 40px;border:none;padding:0px"><div>with Pool(func_kwargs={"big_cache": big_cache}) as pool:</div></blockquote><blockquote style="margin:0 0 0 40px;border:none;padding:0px"><div>    pool.map(func, ls)</div></blockquote></div><div><br></div></div><div>It's a much cleaner interface (which presumably requires a more difficult implementation) than my initial proposal. This also reads a lot better than the "initializer + global" recipe (clear flow of data), and is less constraining than the "define globals in parent" recipe. Most importantly, when taking sequential code and parallelizing via Pool.map, this does not force the user to re-implement "func" such that it consumes a global (rather than a kwarg). It allows "func" to be used elsewhere (i.e. in the parent process, from a different module, testing w/o globals, etc...)..</div><div><br></div><div>This would essentially be an efficient implementation of Pool.starmap(), where kwargs are static, and passed to each application of "func" over our iterable.</div><div><br></div><div>Thoughts?</div></div><div><br></div><div><br><div class="gmail_quote"><div dir="ltr">On Sat, Sep 29, 2018 at 3:00 PM Michael Selik <<a href="mailto:mike@selik.org" rel="noreferrer noreferrer" target="_blank">mike@selik.org</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">On Sat, Sep 29, 2018 at 5:24 AM Sean Harrington <<a href="mailto:seanharr11@gmail.com" rel="noreferrer noreferrer" target="_blank">seanharr11@gmail.com</a>> wrote:<br>
>> On Fri, Sep 28, 2018 at 4:39 PM Sean Harrington <<a href="mailto:seanharr11@gmail.com" rel="noreferrer noreferrer" target="_blank">seanharr11@gmail.com</a>> wrote:<br>
>> > My simple argument is that the developer should not be constrained to make the objects passed globally available in the process, as this MAY break encapsulation for large projects.<br>
>><br>
>> I could imagine someone switching from Pool to ThreadPool and getting<br>
>> into trouble, but in my mind using threads is caveat emptor. Are you<br>
>> worried about breaking encapsulation in a different scenario?<br>
><br>
> >> Without a specific example on-hand, you could imagine a tree of function calls that occur in the worker process (even newly created objects), that should not necessarily have access to objects passed from parent -> worker. In every case given the current implementation, they will.<br>
<br>
Echoing Antoine: If you want some functions to not have access to a<br>
module's globals, you can put those functions in a different module.<br>
Note that multiprocessing already encapsulates each subprocesses'<br>
globals in essentially a separate namespace.<br>
<br>
Without a specific example, this discussion is going to go around in<br>
circles. You have a clear aversion to globals. Antoine and I do not.<br>
No one else seems to have found this conversation interesting enough<br>
to participate, yet.</blockquote><div dir="auto"><br></div><div dir="auto">>>> </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><br>
</blockquote></div></div>
</blockquote></div>
</div></div>
</blockquote></div>