用于OCR的场景文本图像超分辨率 更新1 更新2

问题描述

我正在使用OCR系统。我要在 ROI 内识别文本时面临的挑战是由于晃动运动效果镜头或由于角度位置而无法聚焦。请考虑以下演示示例

enter image description here

如果您注意到文本(例如,标记为红色),则在这种情况下,OCR系统将无法正确识别文本。但是,如果图像太模糊以至于OCR系统无法识别或部分识别文本,这种情况下也不会出现角度拍摄。有时它们是模糊,有时是低分辨率像素化。例如

enter image description here

我们尝试过的方法

首先,我们尝试了SO上可用的各种方法。但可惜没有运气。

接下来,我们尝试了以下三种最有前途的方法。

1.TSRN

最近的研究工作(TSRN)主要针对此类情况。它的主要直观之处是引入超分辨率(SR)技术作为预处理。这个implementation看起来是最有前途的。但是,它无法对我们的自定义数据集产生魔力(例如,上面的第二个图像,蓝色文本)。以下是他们的演示示例:

enter image description here

2。神经增强

查看了its page上的图示后,我们认为它可能有效。但可悲的是,它也无法解决问题。但是,即使显示了这些示例,我也有些困惑,因为我也无法复制它们。我提出了一个issue on github,在此我进行了更详细的演示。以下是他们的演示示例:

enter image description here

3。 ISR

实施this时希望最小的最后选择。也没有运气。

更新1

  • [方法]:除上述内容外,我们还尝试了一些传统方法,例如Out-of-focus Deblur Filter(维纳滤波器和无监督的维纳滤波器)。我们还检查了Richardson-Lucy方法。但这种方法也没有改善。

  • [方法]:我们已经签出了基于GAN的DeBlur解决方案。 DeblurGAN我已经尝试了这个网络。吸引我的是盲运动去模糊机制的实现方式。

最后,在此discussion中,我们遇到了this research work,看起来确实足够好。还没有尝试过。

enter image description here

更新2

  1. [方法]:通过内核估计和噪声注入实现现实世界的超分辨率 尝试了这种方法。有希望。但是,在我们的情况下不起作用。 Code

  2. [方法]:照片还原 与上述所有方法相比,它在OCR的超文本分辨率方面表现出令人惊讶的最佳。它极大地消除了噪点,模糊度等,使图像更清晰,并更好地增强了模型概括性。 Code

我的查询

是否有有效的解决方法来解决此类情况?无论文本是前面还是,任何可以改善这种模糊低分辨率像素的方法相机角度?

解决方法

目前,有一种解决方案通过内核估计和噪声注入实现现实世界的超分辨率。作者提出了一个退化框架RealSR,该框架为超分辨率学习提供了逼真的图像。这是一种用于抖动或运动效果图像超分辨率的有前途的方法。

该方法分为两个阶段。第一阶段超分辨率的现实降级

是根据实际数据估算降级并生成真实的 LR图像。

第二阶段超分辨率模型

是根据构造的数据训练SR模型。

您可以查看Github上的这篇文章:https://github.com/jixiaozhong/RealSR

相关问答

错误1:Request method ‘DELETE‘ not supported 错误还原:...
错误1:启动docker镜像时报错:Error response from daemon:...
错误1:private field ‘xxx‘ is never assigned 按Alt...
报错如下,通过源不能下载,最后警告pip需升级版本 Requirem...