python中大数据集存储的最佳方法?

问题描述

我正在尝试在 python 中存储大量数据。表中的每一行应该有两列,其中一列是一个有 106491 个元素的数组,另一列是一个 462 个元素的数组。即使设置了一些压缩和 expectedrwos 参数,Pytables 也很慢。总而言之,我希望能够一次存储大约 500,000 个样本,并进行 50,000 个批次的保存操作。有没有其他好的库,或者我只是没有很好地使用 pytables?

编辑: 使用 Pickle 将写入时间大大缩短到大约几分钟,每次读取时间减少了大约 1-1.5 小时,这要好得多。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)