在收到评估通知后,您将如何继续检索文本信息OCR?

问题描述

我被要求从评估通知中检索一些信息(图像中为黄色)(在可行的条件下,但如果任务无法实现,我应该提出强有力的论据)。我有大量的扫描文档(约10万个文档),它们通常存在以下问题:

  • 其他类型的文件(非评估通知)和
  • 所有类型的变化(结构在年份,轮换,不良取景,图像质量,扫描的2页功能上略有不同,而不是示例中的第一页)

我是图像处理方面的新手,因此我在这里寻求有关管线处理以及如何进行技术处理的建议。您是否有类似的经历并且可以分享一些想法?或者也许知道一些有用的参考文献?

非常感谢您的帮助(我不确定我是否在正确的论坛中)

enter image description here

enter image description here

注意:一些基本想法和第一个问题。 我在想天真的方法

  1. 区分文件类型(我也许可以使用女人“ Marianne”的徽标)
  2. 检测投资回报率
  3. 在OCR部件的ROI上使用tesseract。

我应该补充一点,我的文档没有标签(“某种无监督的学习”,我只是得到了原始图像)。

对于1.我想我应该依靠“ Marianne”图像或其他“区别”成分。现在,我能检测到什么徽标并将其识别为“ Marianne”? 对于2。我当时正在考虑使用某种过滤器来提取ROI(在左下角为矩形)。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)