根据pdf文件中的字体名称解码文本

问题描述

我想删除 pdf 文件中的电子邮件 使用 hummus 模块,我提取了以下代码。 您可以在此处阅读有关鹰嘴豆泥的信息https://github.com/galkahana/HummusJS/issues/71

BT

/F6 16 Tf 1 0 0 -1 0 0 Tm

11 -443 Td Tj

9,76562500 0 Td Tj

10.6718750 0 Td Tj

9,76562500 0 Td Tj

4.43750000 0 Td Tj

10.6718750 0 Td Tj

9,76562500 0 Td Tj

5.32812500 0 Td Tj

ET

从 BT 到 ET 包含文本,从 Td 到 Tj 是该文本的字符

我只知道它是基于文件中当前字体的编码 我想在 pdf 文件中找到电子邮件,所以我必须找到 @ 字符。但是每种字体都有不同的编码,在上面的例子中 是 @ 字符但我在另一种字体上测试过它不是

那么有没有办法帮我在任何pdf文件中找到@编码? 我真的需要它。

非常感谢

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)