问题描述
我正在使用 python pdfminer 库从 pdf 文件中提取文本(请参阅 docs)。
然而,pdfminer 似乎无法提取某些文件中的所有文本,而是提取 LTFigure
对象。假设从这个对象的位置它“覆盖”了一些文本,因此不会提取该文本。
pdf 文件和带有从 pdf 中提取信息的代码的简短 jupyter notebook 都在我专门为了提出这个问题而创建的 Github 存储库中:
https://github.com/druskacik/ltfigure-pdfminer
我不是 pdf 文件如何工作的专家,但常识告诉我,如果我可以在浏览器中使用 control + f
查找文本,它应该是可提取的。
我曾考虑使用其他一些库,但问题是我还需要提取单词的位置(以便将它们用于我的机器学习模型),这是似乎只有 pdfminer 提供的功能。
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)