Azure 计算机视觉 API 未正确从支票图像中提取文本

问题描述

我使用 Azure Cognitive Vision API 从支票图像中提取文本。但是，它没有正确地从支票中提取文本。示例 MICR 代码具有像“ || 之类的字符被错误地读入其他一些数字。我们有什么办法可以提高准确性或设置一些上下文来专门从支票图像中提取文本？

用于 Vision API 的示例图像：

Vision API 的输出：

MDBS
Date
2 16
NOT NEG
AS PAYES
D
D
M
M
Y
Y
Pay
Hexagon metrology Asia Pacific
or Bearer
SECURA 3011678/2 06/19
Singapore Siahd hundred and niudy- S$ 896<
Dollars
Sit only
2M PRECISION ENGRG
DBS Bank Ltd
PTE LTD
Cheque No.
Bank/Branch Code
Account No.
Please sign above this line
1;91 308 2081717 00540 0549001996

解决方法

此自定义标签目前不可用。但是，我们的工程师正在努力将此功能引入计算机视觉。您可以使用 custom vision 进行检测。

Azure 表单识别器在仅使用五个示例文档创建可行解决方案方面做得非常出色。它在手写和数字文档上执行端到端的光学字符识别 (OCR) 并在短短三秒内以惊人的准确度得分。

如果您只从文档中提取文本、表格和选择标记，您应该使用布局，如果您还需要提取键值对，您可以训练自定义模型或使用预先构建的（发票、收据、名片） .布局结果（文本、表格和选择标记）包含在 JSON 输出的 readResults（文本）和 pageResults（表格）中的所有分析输出（自定义和预构建）中。

• 布局 – 提取文本、表格选择标记，无需培训

• 预建 – 发票、收据、名片 – 从这些类型的文档中提取感兴趣的值

• 自定义 – Extract key value pairs 对您自己的文档进行培训

这是输出文本计算机视觉 API 的快照。。

请遵循可能有帮助的计算机视觉 API Frequently Asked Questions。

不仅是 Azure，就连谷歌云视觉 API 或 AWS Rekognition 文本检测在读取 MICR 代码时也有同样的问题。分隔符被预测为 1 或 :（冒号）。我们已经构建了一个自定义模型来克服这些问题。 https://api.arya.ai/cheque-extraction

azure azure computer-vision vision-api