Java：在检测 PDF、替代方案/解决方案中的表格时错误的 Tabula 猜测？

在我的 java 应用程序中，我使用 Tabula PDF（来自 Technology.Tabula）从 PDF 中提取表格数据。 Tabula 首先将 PDF 视为一个坐标空间，其中每个字符在页面上都有一个 X 和 Y 坐标。

然后它可以通过使用 NurminemDetectionAlgorithm 来“猜测”它认为 PDF 中的表格存在的区域。本质上，它为您提供矩形左上角的 X/Y 坐标，并提供矩形的宽度和高度。期望这个矩形覆盖整个表格。

Tabula 然后过滤掉所有字符，只过滤那些 X/Y 坐标在矩形区域内的字符。

在大多数情况下，这对我来说在 PDF 上工作得很好，但是在少数情况下，我发现它给出的最初猜测是错误的，最终提取了空白的 "" 字符。例如，我在 Adobe PDF 阅读器上检查了猜测的 X/Y 位置，页面甚至不够大，无法让 X/Y 位置落在上面（不确定它是否移动到第二页，但无论哪种方式都是错）

对于使用 Tabula（或任何替代方法）的人，您如何解决这些“错误的猜测”？有没有办法尝试更好的第二次猜测？您是否应用了一些替代检测算法？等等？

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

相关问答