如何以基本或原始 pdf 字体从 pdf 中提取文本？

我有一个基于文本的 pdf，我正在尝试使用 python 提取文本。当我在 pdf 查看器或浏览器中打开 pdf 时，它会正确呈现。但是，当我从 pdf 中提取文本时，它会变得乱七八糟，例如“1”。变成“'J..”。

下面是pdf渲染的快照

和提取的文本

此外，在使用 pdfbox 调试 pdf 时，打印的某些字符对应的 unicode 丢失

如何以原始字体提取文本？

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）