如何以基本或原始 pdf 字体从 pdf 中提取文本?

问题描述

我有一个基于文本的 pdf,我正在尝试使用 python 提取文本。当我在 pdf 查看器或浏览器中打开 pdf 时,它会正确呈现。但是,当我从 pdf 中提取文本时,它会变得乱七八糟,例如“1”。变成“'J..”。

下面是pdf渲染的快照

rendered font

和提取的文本

enter image description here

此外,在使用 pdfbox 调试 pdf 时,打印的某些字符对应的 unicode 丢失

enter image description here

如何以原始字体提取文本?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)