如何使用 python 和 R 将较大的数据集20GB csv 文件转换为 hdf5 格式?

问题描述

我想将较大的 csv 文件转换为 hdf5 格式。我正在使用 vaex 库,它只接受 hdf5 扩展名来加载数据集。我也需要R中上述问题的解决方案。

解决方法

在python中你可以简单地:

pd.read_csv('data.csv').to_hdf('data.h5')

您应该至少有 20GB 的 RAM 来加载 CSV 文件。

Vaex 不支持 csv 文件?

https://vaex.io/docs/example_io.html#Text-based-file-formats

你能试试这个代码吗:

for i,chunk in enumerate(vaex.read_csv('/path/to/data/BigData.csv',chunksize=100_000)):
    df_chunk = vaex.from_pandas(chunk,copy_index=False)
    export_path = f'/path/to/data/part_{i}.hdf5'
    df_chunk.export_hdf5(export_path)

df = vaex.open('/path/to/data/part*')
df.export_hdf5('/path/to/data/Final.hdf5')

来源:https://www.programmersought.com/article/95165112668/

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...