问题描述
我正在寻找“角色视觉相似度”加权数据(不是算法)以插入加权 damerau-Levenshtein 算法。
问题
目前,我正在使用 Google 的 Vision AI(一种付费 OCR 服务)来执行图像到文本的 OCR 转换。然后我想寻找一个短语的存在。例如,The Old Man and the S
e
a
。如果 OCR 结果包含 The Old Man and the S
c
a
(被 OCR 误读),然后我可以使用基本的 damerau-Levenshtein 算法来找出有一个距离为 1
且长度为 23
的子串。成功!
但我遇到的问题,是当我搜索一个(人为的)示例时,例如 disney's
T
angled
,但图像包含短语 Walt disney's
m
angled vision
。这是一个误报,因为它不是 OCR 错误分类。但它仍然返回一个非常有说服力的子串,距离为 1
,长度为 16
。根据我自己的判断,我认为 c
和 e
在视觉上相似,但 T
和 m
不是。
我的尝试
我最初尝试用基本的 damerau-Levenshtein 距离解决一些人为的例子,然后尝试了一些正则表达式。例如,/The Old Man and the S[ce]a/
。我很快意识到这会演变成 /[5S][eo]cti[oe]n [1lI\|][1lI\|]3[B8]/
之类的模式来匹配 Section 113B
。我没有机器学习经验,但我的研究使我找到了以下问题的公认答案:
How to determine character similarity? 和
OCR and character similarity。虽然它不足以满足我的需求,但它激励我开始制作一个朴素的通用字符属性图表,以寻找相似之处:
在我深入这个兔子洞之前,我想问一下我想要的目标是否已经公开(付费服务或免费)。
目标
我的目标是获得一个比较全面的权重字典。例如:c
可以用 e
替换为任意权重 0.3
,而不是 1.0
的标准替换成本。这是因为 c
和 e
在视觉上足够相似,以至于 OCR 引擎可能会误认为是另一个。同样,对于 X
的任意权重,K
可以替换为 0.4
。这可能会产生像这样的 JSON 字典:
{
"A": {
"4": 0.3,"R": 0.6
// ...
},"B": {
"8" : 0.4,"3" : 0.8,"R" : 0.7,// ...
}
// ...
}
接受的答案
将包括以下一项或多项:
- 指向已计算过的公开“视觉相似性数据”的链接。
- 指向预训练模型的链接,这些模型的数据可以被处理为类似上述 JSON 对象的内容(以及如何处理此问题的一般信息)。
- 您如何解决此问题或类似问题的示例,以及您想出的输出。
- 有关要查找的其他字符属性的建议。
- 针对提供类似上述 JSON 对象的付费服务的建议。
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)