pdfminer - 提取 LTFigure 对象后面的文本

问题描述

我正在使用 python pdfminer 库从 pdf 文件中提取文本(请参阅 docs)。

然而,pdfminer 似乎无法提取某些文件中的所有文本,而是提取 LTFigure 对象。假设从这个对象的位置它“覆盖”了一些文本,因此不会提取该文本。

pdf 文件和带有从 pdf 中提取信息的代码的简短 jupyter notebook 都在我专门为了提出这个问题而创建的 Github 存储库中:

https://github.com/druskacik/ltfigure-pdfminer

我不是 pdf 文件如何工作的专家,但常识告诉我,如果我可以在浏览器中使用 control + f 查找文本,它应该是可提取的。

我曾考虑使用其他一些库,但问题是我还需要提取单词的位置(以便将它们用于我的机器学习模型),这是似乎只有 pdfminer 提供的功能。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)