读取 s3fs 文件对象时 h5py 很慢

问题描述

我使用以下 h5py 和 s3fs 组合从 Amazon S3 上的较大 HDF5 文件中读取几个小数据集。

s3 = s3fs.S3FileSystem()
h5_file = h5py.File(s3.open(s3_path,'rb'),'r')
data = h5_file.get(dataset)

这些读取速度相对较慢,似乎以这种方式读取单个数据集与从本地 S3 存储桶复制整个文件然后读取数据集一样慢。我认为原因是 h5py 通过 s3fs 发送的查找和读取命令有很多开销。

有没有人有更优化方法的想法? (除了下载文件然后读取它,如果我想读取多个数据集会更快,但仍然太慢)

谢谢!

伊曼纽尔

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)