如何从pdf中提取文本？

我正在构建一个 pdf 解析器，用于提取文本并将其保存到 txt 文件中。
我是通过跟踪所有内容对象来实现的，然后使用字体编码对流进行解码。我发现我有点挑战的是如何以正确的顺序放置文本，我不在乎它的实际外观，我想要的是序列的顺序，我不在乎字体大小，文本之间的空间...等

如果我只关心顺序，我该如何处理 Tm、Td、TD 和 T*？

另一个问题有时一个内容对象包含来自 2 个不同页面的流，我如何知道下一页的流何时开始？

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）