表格可以与合并列一起使用吗?

问题描述

最近我一直在进行表提取,特别是使用 stream 表。在this的一篇文章中,我看到了表格可以很好地实现这种提取。 例如,当比较“ budget.pdf”中的tabulacamelot时,抽取中的Tabula会合并最后两列。可以固定使用.split(' ',expand = True),然后使用combinejoinmerge制作原始pdf表。

我注意到,当两列之间的距离非常近时,它们将合并为一个。在我试图实现的目标中,这很常见。我不知道我的解决方案有多好,因为在我在数据框中间工作的某些示例中,列被合并,并且我必须对整个数据框的列进行排序。

我想知道Tabula是否可以进行超参数调整,例如PDFminer,您可以在其中管理值之间的距离...

解决方法

Tabula的维护者。

您可以尝试指定列边界的水平坐标。此参数显示在tabula-py方法的columns=关键字参数的read_pdf中。

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...