pdfminer - 提取 LTFigure 对象后面的文本

我正在使用 python pdfminer 库从 pdf 文件中提取文本（请参阅 docs）。

然而，pdfminer 似乎无法提取某些文件中的所有文本，而是提取 LTFigure 对象。假设从这个对象的位置它“覆盖”了一些文本，因此不会提取该文本。

pdf 文件和带有从 pdf 中提取信息的代码的简短 jupyter notebook 都在我专门为了提出这个问题而创建的 Github 存储库中：

我不是 pdf 文件如何工作的专家，但常识告诉我，如果我可以在浏览器中使用 control + f 查找文本，它应该是可提取的。

我曾考虑使用其他一些库，但问题是我还需要提取单词的位置（以便将它们用于我的机器学习模型），这是似乎只有 pdfminer 提供的功能。

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）