如何在大图像上应用 MNIST 训练的 NN

我在 deeplearning4j 中有一个神经网络 (NN)，经过 MNIST 训练以识别图像上的数字。由于 MNIST 集包含 28x28 像素图像，因此我能够使用此 NN 预测 28x28 图像的类别。

我想知道如何在手写页面的图片上应用这个神经网络？如何将该图像中的文本转换为实际文本 (OCR)？基本上，需要什么样的预处理以及如何找出文本所在的图像部分？如何导出该图像的较小部分以单独应用 NN？

您可能想要探索 HTR 使用 Tensorflow（手写文本识别）。有一些有趣的实现已经可用并被广泛用作相同的基线模型。可以在 here 中找到这样的一个。

上面的架构详细说明了如何设计诸如系统。当然，您可以进一步修改它以满足您的要求。

如果您正在处理数据组合，或试图了解此类图像的预处理步骤，here 是一个可以指导您的链接。

主要的预处理步骤是检测和裁剪单词，以便底层 TensorFlow HTR 或 tesseract 架构可以管理这些单词。

你可能想看看cropyble，它一次性打包了裁剪和单词提取。您可以专门使用它来裁剪图像以提取其他下游任务的单词序列