问题描述
最近我一直在进行表提取,特别是使用 stream 表。在this的一篇文章中,我看到了表格可以很好地实现这种提取。
例如,当比较“ budget.pdf”中的tabula
与camelot
时,抽取中的Tabula会合并最后两列。可以固定使用.split(' ',expand = True)
,然后使用combine
,join
或merge
制作原始pdf表。
我注意到,当两列之间的距离非常近时,它们将合并为一个。在我试图实现的目标中,这很常见。我不知道我的解决方案有多好,因为在我在数据框中间工作的某些示例中,列被合并,并且我必须对整个数据框的列进行排序。
我想知道Tabula是否可以进行超参数调整,例如PDFminer
,您可以在其中管理值之间的距离...
解决方法
Tabula的维护者。
您可以尝试指定列边界的水平坐标。此参数显示在tabula-py
方法的columns=
关键字参数的read_pdf
中。