从 PDF 和分类中提取文本

问题描述

我有一个文件夹,里面有一堆 PDF 格式的扫描发票。我想将这些 PDF 文件分组到单独的文件夹中;每个供应商名称的单独文件夹。

(供应商名称通常可以像“信头”一样出现在页面顶部,有时也可能仅限于顶部较小的区域)

我应该为此使用 Tesseract 还是应该使用 OpenCV 来完成这项任务。 我应该执行文本提取然后聚类吗? (我不知道所有供应商的名称,所以我无法使用分类

我也考虑过 Tika 但这可能不适合我的情况。

任何人都可以为这项任务建议最好的方法吗?我是否可以使用任何其他包来处理这项任务?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)