从 PDF 和分类中提取文本

我有一个文件夹，里面有一堆 PDF 格式的扫描发票。我想将这些 PDF 文件分组到单独的文件夹中；每个供应商名称的单独文件夹。

（供应商名称通常可以像“信头”一样出现在页面顶部，有时也可能仅限于顶部较小的区域）

我应该为此使用 Tesseract 还是应该使用 OpenCV 来完成这项任务。我应该执行文本提取然后聚类吗？（我不知道所有供应商的名称，所以我无法使用分类）

我也考虑过 Tika 但这可能不适合我的情况。

任何人都可以为这项任务建议最好的方法吗？我是否可以使用任何其他包来处理这项任务？

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）