<div dir="ltr">Hi everyone,<div><br></div><div>Adrian Price-Whelan recommended that I ask my question here, since it would reach a greater number of people involved in astronomical software.</div><div><br></div><div>I'm a developer of <a href="https://awkward-array.org/what-is-awkward.html">Awkward Array</a>, a Python package for manipulating large, irregularly shaped datasets: arrays with variable-length lists, nested records, missing values, or mixed data types. The interface is a strict generalization of NumPy: you can slice jagged arrays as though they were ordinary multidimensional arrays, and there are new functions that only make sense in the context of irregular data. Like NumPy, the actual calculations are precompiled loops on internally homogeneous arrays, and we're expanding it to include GPUs transparently (irregular data on GPUs in a NumPy-like syntax).</div><div><br></div><div>This package was developed for particle physics (variable numbers of particles emerging from an array of collision events), but it seems like these problems would exist in other fields as well. Right now, we're working on a proposal to find data analysis projects that need to deal with large, irregularly structured data to see if Awkward Array is applicable and if it can be made more useful for them. Ideally, this would motivate more interoperability with other scientific Python libraries. (We can already use Awkward Arrays in Numba; we're working on cuDF, Dask, and Zarr. Adrian also recommended ASDF, which I'm looking into now.)</div><div><br></div><div>Does anyone have or know about a data analysis project that is currently limited by this combination of largeĀ + irregular data? Is anyone interested in collaborating?</div><div><br></div><div>Thank you!</div><div>-- Jim<br><div><br></div></div></div>