自然场景数字识别的深度学习解决方案

问题描述

我正在解决一个问题,我想自动读取图像上的数字,如下所示:

enter image description here

enter image description here

可以看出,这些图像非常具有挑战性!这些不仅在所有情况下都不相连,而且对比度也相差很大。我的第一次尝试是在一些预处理后使用 pytesseract。我还创建了一个 StackOverflow 帖子 here

虽然这种方法在单个图像上运行良好,但它并不通用,因为它需要太多的手动信息进行预处理。到目前为止,我拥有的最佳解决方案是迭代一些超参数,例如阈值、腐蚀/膨胀的过滤器大小等。但是,这在计算上很昂贵!

因此我开始相信,我正在寻找的解决方案必须基于深度学习。我在这里有两个想法:

  • 在类似任务中使用预训练网络
  • 将输入图像拆分为单独的数字,并以 MNIST 方式自己训练/微调网络

关于第一种方法,我还没有找到好的东西。有人对此有什么想法吗?

关于第二种方法,我首先需要一种方法来自动生成单独数字的图像。我想这也应该是基于深度学习的。之后,我可能会通过一些数据增强来取得一些不错的结果。

有人有想法吗? :)

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)