如何在大图像上应用 MNIST 训练的 NN

问题描述

我在 deeplearning4j 中有一个神经网络 (NN),经过 MNIST 训练以识别图像上的数字。由于 MNIST 集包含 28x28 像素图像,因此我能够使用此 NN 预测 28x28 图像的类别。

我想知道如何在手写页面图片上应用这个神经网络?如何将该图像中的文本转换为实际文本 (OCR)?基本上,需要什么样的预处理以及如何找出文本所在的图像部分?如何导出该图像的较小部分以单独应用 NN?

解决方法

您可能想要探索 HTR 使用 Tensorflow(手写文本识别)。有一些有趣的实现已经可用并被广泛用作相同的基线模型。可以在 here 中找到这样的一个。

enter image description here

上面的架构详细说明了如何设计诸如系统。当然,您可以进一步修改它以满足您的要求。

如果您正在处理数据组合,或试图了解此类图像的预处理步骤,here 是一个可以指导您的链接。

enter image description here

主要的预处理步骤是检测和裁剪单词,以便底层 TensorFlow HTR 或 tesseract 架构可以管理这些单词。

你可能想看看cropyble,它一次性打包了裁剪和单词提取。您可以专门使用它来裁剪图像以提取其他下游任务的单词序列