{x44.Dataset.to_array是否将数组加载到内存中，以及如何有效地从xarray采样微型批次？

问题描述

我目前正在尝试将大型多维数组（> 5 GB）加载到python脚本中。由于我将数组用作机器学习模型的训练数据，因此以小批量有效地加载数据但避免一次将整个数据集加载到内存中很重要。
我的想法是使用xarray库。我用X=xarray.open_dataset("Test_file.nc")加载数据集。据我所知，此命令不会将数据集加载到内存中-到目前为止非常好。但是，我想使用命令X将X=X.to_array()转换为数组。

我的第一个问题是： X=X.to_array()是否将其加载到内存中？

如果这样做，我想知道如何最好地将minibatches加载到内存中。数组的形状为（变量，日期时间，x1位置，x2位置）。我想在每个日期时间加载minibatches，这将导致：

ind=np.random.randint(low=0,high=n_times,size=(BATCH_SIZE))
mini_batch=X[:,ind]

另一种方法是先使用X.transpose("datetime","variable","x1_position","x2_position")转置数组，然后通过以下方式进行采样：

ind=np.random.randint(low=0,size=(BATCH_SIZE))
mini_batch=X[ind,:]

我的第二个问题是： 转置xarray是否会影响索引的效率？更具体地说，X[ind,:]花费的时间与X[:,ind]一样长吗？

解决方法

我的第一个问题是：X = X.to_array（）是否将其加载到内存中？

xarray使用dask将部分数据分块（装载）到内存中。您可以通过以下方式比较X

X = xarray.open_dataset("Test_file.nc")
# or
X = xarray.open_dataset("Test_file.nc",chunks={'datetime':1,'x1_position':x1_count,'x2_position':x2_count})

查看（print(X)）加载的数据集之间的差异，或相应地指定块。

后一种方式意味着仅将一个datetime切片数据分块（加载）到内存中。我认为您不需要X=X.to_array()，但您也可以比较to_array()之后的结果。我的经验是，to_array()不会更改实际的分块（加载），而只会更改数据视图。

我的第二个问题是：转置xarray是否会影响索引的效率？更具体地说，X [ind,:]花费的时间与X [：，ind]一样长吗？

我认为xarray的一个目标是让用户忘记底层实现的细节（基于numpy）。转置只能修改视图，而不能修改数据的基础结构。两种索引方式之间肯定存在效率差异，具体取决于哪种方式沿连续内存访问数据。但是这样的差异不会是开销。随意使用两者。

memory mini-batch python-xarray pytorch