是否有基于 OCR 的字符距离的公开数据？

问题描述

我正在寻找“角色视觉相似度”加权数据（不是算法）以插入加权 damerau-Levenshtein 算法。

问题

目前，我正在使用 Google 的 Vision AI（一种付费 OCR 服务）来执行图像到文本的 OCR 转换。然后我想寻找一个短语的存在。例如，The Old Man and the Sea。如果 OCR 结果包含 The Old Man and the Sca（被 OCR 误读），然后我可以使用基本的 damerau-Levenshtein 算法来找出有一个距离为 1 且长度为 23 的子串。成功！

但我遇到的问题，是当我搜索一个（人为的）示例时，例如 disney's Tangled ，但图像包含短语 Walt disney's mangled vision。这是一个误报，因为它不是 OCR 错误分类。但它仍然返回一个非常有说服力的子串，距离为 1，长度为 16。根据我自己的判断，我认为 c 和 e 在视觉上相似，但 T 和 m 不是。

我的尝试

我最初尝试用基本的 damerau-Levenshtein 距离解决一些人为的例子，然后尝试了一些正则表达式。例如，/The Old Man and the S[ce]a/。我很快意识到这会演变成 /[5S][eo]cti[oe]n [1lI\|][1lI\|]3[B8]/ 之类的模式来匹配 Section 113B。我没有机器学习经验，但我的研究使我找到了以下问题的公认答案： How to determine character similarity? 和 OCR and character similarity。虽然它不足以满足我的需求，但它激励我开始制作一个朴素的通用字符属性图表，以寻找相似之处：

字符	左侧个人资料	正确的配置文件	热门资料	底部轮廓	高度
一	低缩进	低平	曲线	曲线	一半
b	平坦	低曲线	曲线，点	曲线	完整
c	低曲线	低缩进	曲线	曲线	一半

在我深入这个兔子洞之前，我想问一下我想要的目标是否已经公开（付费服务或免费）。

目标

我的目标是获得一个比较全面的权重字典。例如：c 可以用 e 替换为任意权重 0.3，而不是 1.0 的标准替换成本。这是因为 c 和 e 在视觉上足够相似，以至于 OCR 引擎可能会误认为是另一个。同样，对于 X 的任意权重，K 可以替换为 0.4。这可能会产生像这样的 JSON 字典：

{
  "A": {
    "4": 0.3,"R": 0.6
    // ...
  },"B": {
    "8" : 0.4,"3" : 0.8,"R" : 0.7,// ...
  }
  // ...
}

接受的答案

将包括以下一项或多项：

指向已计算过的公开“视觉相似性数据”的链接。
指向预训练模型的链接，这些模型的数据可以被处理为类似上述 JSON 对象的内容（以及如何处理此问题的一般信息）。
您如何解决此问题或类似问题的示例，以及您想出的输出。
有关要查找的其他字符属性的建议。
针对提供类似上述 JSON 对象的付费服务的建议。

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

damerau-levenshtein dataset dataset dataset ocr ocr weighted