Java:在检测 PDF、替代方案/解决方案中的表格时错误的 Tabula 猜测?

问题描述

在我的 java 应用程序中,我使用 Tabula PDF(来自 Technology.Tabula)从 PDF 中提取表格数据。 Tabula 首先将 PDF 视为一个坐标空间,其中每个字符在页面上都有一个 X 和 Y 坐标。

然后它可以通过使用 NurminemDetectionAlgorithm 来“猜测”它认为 PDF 中的表格存在的区域。本质上,它为您提供矩形左上角的 X/Y 坐标,并提供矩形的宽度和高度。期望这个矩形覆盖整个表格。

Tabula 然后过滤掉所有字符,只过滤那些 X/Y 坐标在矩形区域内的字符。

在大多数情况下,这对我来说在 PDF 上工作得很好,但是在少数情况下,我发现它给出的最初猜测是错误的,最终提取了空白的 "" 字符。例如,我在 Adob​​e PDF 阅读器上检查了猜测的 X/Y 位置,页面甚至不够大,无法让 X/Y 位置落在上面(不确定它是否移动到第二页,但无论哪种方式都是错)

对于使用 Tabula(或任何替代方法)的人,您如何解决这些“错误的猜测”?有没有办法尝试更好的第二次猜测?您是否应用了一些替代检测算法?等等?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...