问题描述
我正在构建一个 pdf 解析器,用于提取文本并将其保存到 txt 文件中。
我是通过跟踪所有内容对象来实现的,然后使用字体编码对流进行解码。
我发现我有点挑战的是如何以正确的顺序放置文本,我不在乎它的实际外观,我想要的是序列的顺序,我不在乎字体大小,文本之间的空间...等
如果我只关心顺序,我该如何处理 Tm、Td、TD 和 T*?
另一个问题有时一个内容对象包含来自 2 个不同页面的流,我如何知道下一页的流何时开始?
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)