问题描述
我有一个文件夹,里面有一堆 PDF 格式的扫描发票。我想将这些 PDF 文件分组到单独的文件夹中;每个供应商名称的单独文件夹。
(供应商名称通常可以像“信头”一样出现在页面顶部,有时也可能仅限于顶部较小的区域)
我应该为此使用 Tesseract
还是应该使用 OpenCV
来完成这项任务。
我应该执行文本提取然后聚类吗? (我不知道所有供应商的名称,所以我无法使用分类)
我也考虑过 Tika
但这可能不适合我的情况。
任何人都可以为这项任务建议最好的方法吗?我是否可以使用任何其他包来处理这项任务?
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)