使用Numpy.Load-这是最快的方法吗?好像很慢

问题描述

我正在循环加载以.npy格式保存的10-15MB numpy数组,在Google Colab中每次加载大约需要1.5秒。那是可以接受的速度吗?到目前为止,这是我循环中最慢的部分。另外,第二次运行循环时速度更快(大概是因为已加载的文件已保存到RAM?),但最终循环又变慢了(RAM耗尽了?)。

这是我用来加载数组的代码

data = np.load('/content/drive/My Drive/Share/Daily Data/Processed/' + str(fileName))

任何加快此速度的建议将不胜感激,现在我每个循环加载1500个数组,因此每个循环大约需要25分钟。数组必须分别加载(请不要建议我将它们全部附加并立即全部加载,我不能)。

解决方法

作为近似测试, 我可以在6毫秒内(从本地磁盘)加载一个包含1_000_000个元素(int64)的.npy文件。

  • 您的文件(/ content / drive / ...)是在Google数据中心中,还是在您自己的存储中?
  • 在后一种情况下,您能否将文件复制到文件,以便它们与计算一起在Google上?