问题描述
我一直在努力寻找一种方法来解决这个问题,而不必进入 NLP 并开始训练模型。我有 2 个相当大的数据集,应该能够按名称进行匹配,但它们的拼写和语法略有不同,人类很容易理解,但又足够复杂,以至于我的模糊匹配和编辑距离不能。数据集中有大量重复项,但足以让我无法手动映射它们,因此我试图围绕要匹配的内容创建“规则”。 fuzzywuzzy 之类的软件包是否允许更多定制元素来解决这个问题?以下示例,谢谢!
library(fuzzyjoin)
a <- as.tibble(a)
b <- as.tibble(b)
stringdist_inner_join(x = a,y = b,max_dist = 3,method = 'LV',ignore_case = T)
到目前为止,我在匹配数据集方面得到的最接近的是模糊字符串匹配,但这只能很好地工作,并且在我增加最大编辑距离时仍然会遗漏一大块或产生相当多的错误。
{{1}}
数据集的深度比这要深一些。我希望制定某种“规则”,即“纽约市”始终等于“纽约市”,但我不确定是否有更明智的方法来解决这个问题。我希望这个特定的文本示例有所帮助。非常感谢!
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)