r中的名称匹配和更正拼写错误

问题描述

我有一个包含数百万行的巨大数据表,其中包含商品代码及其描述。我想为每个组分配一个类别(基于代码和描述的组合)。问题是描述的拼写方式不同,我想将所有相似的名称转换为一个名称。这是一个说明性示例:

ibrary(data.table)
dt <- data.table(code = c(rep(1,2),rep(2,rep(3,2)),name = c('McDonalds','Mc 
Dnald','Macys','macy','Comcast','Com-cats'))
dt[,cat:='NA']
setkeyv(dt,c('code','name'))
dt[.(1,'McDonalds'),cat:='Restaurant']
dt[.(1,'Mc Dnald'),'Macys'),cat:='Department Store']

当然,在实际情况下,不可能遍历所有引用同一个单词的拼写并手动修复它们。 有没有办法检测所有相似的单词并将它们转换为单个(正确)拼写?

提前致谢

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)