使用 h5py 对具有大量重复的数据集进行有效压缩

问题描述

我有包含 numpy.array 和 dim = (N,M,Q) 的 HDF5 文件,其中 N - 是一个数字 这样的矩阵。它们的主要属性是值表示为 2 的幂并且有很多重复,所以我的意思是:

[[0,2,4,16,1024],[2,512,128],[4,128,2048] ...]

我正在寻找良好的压缩效果。我测试了 gzip 和 bzip2,但在这种情况下它们似乎是不错的选择。似乎我需要使用客户词典或可以真正压缩此类数据集的东西进行一些压缩。我不太了解过滤器和压缩器,所以我决定在阅读有关它的不同资源时询问它。

如果您有任何经验或任何想法/建议,我将非常感谢您的帮助!

提前致谢!

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)