使用OCR以密钥值格式从护照图像中提取数据

问题描述

我的目标是使用基于OCR服务器的解决方案以键值格式从护照图像中提取数据，以使数据保留在内部。我尝试了Azure表单识别器容器（认知服务表单识别器API V1预览）。但是由于从训练数据创建的模型导致结果不令人满意，因此无法提取任何键值对。我尝试了各种训练样本数据，还引用了https://docs.microsoft.com/en-us/azure/cognitive-services/form-recognizer/build-training-data-set，但没有用

能否请您指导我如何提取所需格式的数据？

或者有没有人知道服务器产品，库或解决方案的商业，开源或什至是.Net的方法，最好能帮助以下方面；

非常感谢您的帮助，谢谢

解决方法

您可以考虑：

收集足够的护照样本数据（例如30张图像），这些数据代表您将要处理的文件。
确定要提取的字段，请使用Form Recognizer的标签工具为对添加标签，建议先为5-10个文件添加标签。训练模型
使用一些测试图像来测试模型
分析低准确性对，并添加更多训练文件。重复3）和4），直到获得足够好的结果。

-xin（MS表格识别器团队）

azure-cognitive-services containers form-recognizer ocr