问题描述
我正在使用OCR系统。我要在 ROI 内识别文本时面临的挑战是由于晃动或运动效果镜头或由于角度位置而无法聚焦。请考虑以下演示示例
如果您注意到文本(例如,标记为红色),则在这种情况下,OCR系统将无法正确识别文本。但是,如果图像太模糊以至于OCR系统无法识别或部分识别文本,这种情况下也不会出现角度拍摄。有时它们是模糊,有时是低分辨率或像素化。例如
我们尝试过的方法
首先,我们尝试了SO上可用的各种方法。但可惜没有运气。
- How to improve image quality to extract text from image using Tesseract
- How to improve image quality? [closed]
- Image quality improvement in Opencv
接下来,我们尝试了以下三种最有前途的方法。
1.TSRN
最近的研究工作(TSRN)主要针对此类情况。它的主要直观之处是引入超分辨率(SR)技术作为预处理。这个implementation看起来是最有前途的。但是,它无法对我们的自定义数据集产生魔力(例如,上面的第二个图像,蓝色文本)。以下是他们的演示示例:
2。神经增强
查看了its page上的图示后,我们认为它可能有效。但可悲的是,它也无法解决问题。但是,即使显示了这些示例,我也有些困惑,因为我也无法复制它们。我提出了一个issue on github,在此我进行了更详细的演示。以下是他们的演示示例:
3。 ISR
实施this时希望最小的最后选择。也没有运气。
更新1
-
[方法]:除上述内容外,我们还尝试了一些传统方法,例如Out-of-focus Deblur Filter(维纳滤波器和无监督的维纳滤波器)。我们还检查了Richardson-Lucy方法。但这种方法也没有改善。
-
[方法]:我们已经签出了基于GAN的DeBlur解决方案。 DeblurGAN我已经尝试了这个网络。吸引我的是盲运动去模糊机制的实现方式。
最后,在此discussion中,我们遇到了this research work,看起来确实足够好。还没有尝试过。
更新2
-
[方法]:通过内核估计和噪声注入实现现实世界的超分辨率 尝试了这种方法。有希望。但是,在我们的情况下不起作用。 Code。
-
[方法]:照片还原 与上述所有方法相比,它在OCR的超文本分辨率方面表现出令人惊讶的最佳。它极大地消除了噪点,模糊度等,使图像更清晰,并更好地增强了模型概括性。 Code。
我的查询
是否有有效的解决方法来解决此类情况?无论文本是前面还是远,任何可以改善这种模糊或低分辨率像素的方法相机角度?
解决方法
目前,有一种解决方案通过内核估计和噪声注入实现现实世界的超分辨率。作者提出了一个退化框架RealSR,该框架为超分辨率学习提供了逼真的图像。这是一种用于抖动或运动效果图像超分辨率的有前途的方法。
该方法分为两个阶段。第一阶段超分辨率的现实降级
是根据实际数据估算降级并生成真实的 LR图像。
第二阶段超分辨率模型
是根据构造的数据训练SR模型。
您可以查看Github上的这篇文章:https://github.com/jixiaozhong/RealSR