表格可以与合并列一起使用吗?

问题描述

最近我一直在进行表提取,特别是使用 stream 表。在this的一篇文章中,我看到了表格可以很好地实现这种提取。 例如,当比较“ budget.pdf”中的tabulacamelot时,抽取中的Tabula会合并最后两列。可以固定使用.split(' ',expand = True),然后使用combinejoinmerge制作原始pdf表。

我注意到,当两列之间的距离非常近时,它们将合并为一个。在我试图实现的目标中,这很常见。我不知道我的解决方案有多好,因为在我在数据框中间工作的某些示例中,列被合并,并且我必须对整个数据框的列进行排序。

我想知道Tabula是否可以进行超参数调整,例如PDFminer,您可以在其中管理值之间的距离...

解决方法

Tabula的维护者。

您可以尝试指定列边界的水平坐标。此参数显示在tabula-py方法的columns=关键字参数的read_pdf中。