HDF5文件转换为Parquet

问题描述

我有一个包含多个表的大HDF5文件,当我尝试使用read_hdf通过转换为大块进行转换时,它不起作用。

另一方面,使用h5py要求在代码中显式地编写每个数据集/表的自定义代码提及,这几乎是不可能的,因为每个hdf5文件的表可能会有所不同。是否有相同的选项或库?

此外,我可以看到我们可以使用vaex读取hdf5文件并使用pyarrow进行转换,但是通过vaex读取hdf5文件需要15分钟以上的时间。

提前谢谢!

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)