是否有基于 OCR 的字符距离的公开数据?

问题描述

我正在寻找“角色视觉相似度”加权数据(不是算法)以插入加权 damerau-Levenshtein 算法。

问题

目前,我正在使用 Google 的 Vision AI(一种付费 OCR 服务)来执行图像到文本的 OCR 转换。然后我想寻找一个短语的存在。例如,The Old Man and the Sea。如果 OCR 结果包含 The Old Man and the Sca(被 OCR 误读),然后我可以使用基本的 damerau-Levenshtein 算法来找出有一个距离为 1 且长度为 23 的子串。成功!

但我遇到的问题,是当我搜索一个(人为的)示例时,例如 disney's Tangled ,但图像包含短语 Walt disney's mangled vision。这是一个误报,因为它不是 OCR 错误分类。但它仍然返回一个非常有说服力的子串,距离为 1,长度为 16。根据我自己的判断,我认为 ce 在视觉上相似,但 Tm 不是。

我的尝试

我最初尝试用基本的 damerau-Levenshtein 距离解决一些人为的例子,然后尝试了一些正则表达式。例如,/The Old Man and the S[ce]a/。我很快意识到这会演变成 /[5S][eo]cti[oe]n [1lI\|][1lI\|]3[B8]/ 之类的模式来匹配 Section 113B。我没有机器学习经验,但我的研究使我找到了以下问题的公认答案: How to determine character similarity?OCR and character similarity。虽然它不足以满足我的需求,但它激励我开始制作一个朴素的通用字符属性图表,以寻找相似之处:

字符 左侧个人资料 正确的配置文件 热门资料 底部轮廓 高度
低缩进 低平 曲线 曲线 一半
b 平坦 低曲线 曲线,点 曲线 完整
c 低曲线 低缩进 曲线 曲线 一半

在我深入这个兔子洞之前,我想问一下我想要的目标是否已经公开(付费服务或免费)。

目标

我的目标是获得一个比较全面的权重字典。例如:c 可以用 e 替换为任意权重 0.3,而不是 1.0 的标准替换成本。这是因为 ce 在视觉上足够相似,以至于 OCR 引擎可能会误认为是另一个。同样,对于 X 的任意权重,K 可以替换为 0.4。这可能会产生像这样的 JSON 字典:

{
  "A": {
    "4": 0.3,"R": 0.6
    // ...
  },"B": {
    "8" : 0.4,"3" : 0.8,"R" : 0.7,// ...
  }
  // ...
}

接受的答案

包括以下一项或多项:

  1. 指向已计算过的公开“视觉相似性数据”的链接
  2. 指向预训练模型的链接,这些模型的数据可以被处理为类似上述 JSON 对象的内容(以及如何处理此问题的一般信息)。
  3. 您如何解决此问题或类似问题的示例,以及您想出的输出
  4. 有关要查找的其他字符属性的建议。
  5. 针对提供类似上述 JSON 对象的付费服务的建议。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)