Camelot 可以使用pdf“原语”来提取数据吗?

问题描述

因此,我花了一些时间尝试使用 PyPDF2 提取数据,但即使 pdf 看起来(从眼睛看来)它们具有相似的结构并且可能是计算机生成的,这最终在 pdf 中也不可靠。

我喜欢 PyPDF2 的一点是它遍历 pdf 文件并从各种对象中提取文本,因此您不必处理字符之间的间距等(据我所知){{3 }}。

另一方面,根据 extractText PyPDF2 function,Camelot 使用 pdfminer,据我所知,它没有执行上述操作,而是尝试根据距离规则将 pdf 的不同部分从字符组合成单词成行.我在使用 Camelot 时遇到的问题是,您会得到类似“He l lo World”这样的结果。

很遗憾我无法在线分享 pdf 示例

让我知道还有哪些其他信息有助于分享

解决方法

不是一个完美的答案,但以防其他人最终出现在这里。在搜索文本并匹配它时,我发现有帮助的一件事是删除所有空格。

因此,如果我正在寻找“Hello World”,但通过删除空格得到“He l lo Wo rld”,它们实际上是相同的。

这解决了我的问题

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...