Pytables：可以减少附加的Earray的大小吗？

问题描述

@H_502_0@根据SO Post的建议，我还发现PyTables-append非常省时。但是，在我的情况下，输出文件（earray.h5）的大小很大。有没有一种方法可以附加数据，以使输出文件不那么大？例如，在我的情况下（请参见下面的链接），一个13GB的输入文件（dset_1：2.1E8 x 4和dset_2：2.1E8 x 4）提供了一个只有一列（2.5E10 x 1）的197 GB输出文件。所有元素都是float64。

@H_502_0@我想减小输出文件的大小，以使脚本的执行速度不会受到影响，并且输出文件的读取对于以后的使用也很有效。可以沿着列而不是仅沿着行保存数据有帮助吗？有什么建议吗？下面是MWE。

@H_502_0@ Output and input files' details here

# no. of chunks from dset-1 and dset-2 in inp.h5
loop_1 = 40
loop_2 = 20 

# save to disk after these many rows
app_len = 10**6 

# **********************************************
#       Grabbing input.h5 file
# **********************************************
filename = 'inp.h5'
f2 = h5py.File(filename,'r')
chunks1 = f2['dset_1']
chunks2 = f2['dset_2']
shape1,shape2 = chunks1.shape[0],chunks2.shape[0]

f1 = tables.open_file("table.h5","w")
a = f1.create_earray(f1.root,"dataset_1",atom=tables.Float64Atom(),shape=(0,4))

size1 = shape1//loop_1
size2 = shape2//loop_2

# ***************************************************
#       Grabbing chunks to process and append data
# ***************************************************
for c in range(loop_1):
    h = c*size1
    # grab chunks from dset_1 of inp.h5  
    chunk1 = chunks1[h:(h + size1)]

    for d in range(loop_2):
        g = d*size2
        chunk2 = chunks2[g:(g + size2)] # grab chunks from dset_2 of inp.h5 
        r1 = chunk1.shape[0]
        r2 = chunk2.shape[0]
        left,right = 0,0

        for j in range(r1):  # grab col.2 values from dataset-1
            e1 = chunk1[j,1]
            #...Algaebraic operations here to output a row containing 4 float64
            #...append to a (earray) when no. of rows reach a million
        del chunk2
    del chunk1
f2.close()

解决方法

我写了您引用的答案。这是一个简单的示例，“仅”写入1.5e6行。我没有做任何事情来优化超大文件的性能。您正在创建一个非常大的文件，但没有说出多少行（显然超过10 ** 6）。以下是基于另一个主题中的注释的一些建议。

我建议的区域（3个与PyTables代码相关，而2个基于外部使用）。

PyTables代码建议：

在创建文件时启用压缩（在创建文件时添加filters=参数）。从tb.Filters(complevel=1)开始。
在expectedrows=中定义.create_tables()参数（根据PyTables文档，“ 这将优化HDF5 B树和已用内存量”）。默认值在tables/parameters.py中设置（寻找EXPECTED_ROWS_TABLE；在我的安装中只有10000）。如果您要创建10 ** 6（或更多）行，建议您将其设置为更大的值。
设置expectedrows=有一个副作用。如果未定义块形状，则“ 根据期望的行参数计算出合理的值”。检查使用的值。这不会减小创建的文件大小，但会提高I / O性能。

如果在创建文件时未使用压缩，则有两种方法可以压缩现有文件：

外部实用程序：

PyTables实用程序ptrepack-针对HDF5文件运行以创建一个新文件（从未压缩状态转到压缩状态，反之亦然）。它与PyTables一起提供，并在命令行上运行。
HDF5实用程序h5repack-与ptrepack类似。它与HDF集团的HDF5安装程序一起提供。

在文件压缩方面需要权衡取舍：它减小了文件大小，但增加了访问时间（降低了I / O性能）。我倾向于使用经常打开的未压缩文件（以获得最佳I / O性能）。然后，完成后，我将转换为压缩格式以进行长期归档。您可以继续以压缩格式使用它们（API会干净处理）。

chunking large-data pytables python