问题描述
我需要通过将名称略有不同的重复客户分组来减少大量客户。我在 this post 的帮助下开始了我的模糊匹配解决方案。
我修改了代码以创建一个有用的数据框,其中一列包含客户,另一列显示所有匹配的客户。
list <- sapply(customer_data$End_Customer,agrep,customer_data$End_Customer,ignore.case = TRUE,value = TRUE,max.distance = 0.01)
result <- data.frame(stack(list))
register("result")
## filter and sort the dataset
result <- result %>%
filter(values != ind) %>%
arrange(desc(values)) %>%
select(values:ind)
既然我有了这个数据集,我该如何将它们归为一个客户?我可以将所有匹配的客户分组,但单独的 agrep() 并不完美,一些“匹配”的客户实际上并不匹配。例如,客户“WAE”与大约 600 个客户相匹配。我不希望 WAE 被归入所有 600 个客户。我只希望 WAE 匹配最适合的一位客户。
我读过 Rosette Text Analytics,它使用了一种结合了多种不同技术的混合方法。是否有其他 R 包可以与 agrep() 结合使用来改进我的模糊匹配?
在创建这篇文章时,我开始研究fuzzyjoin(),所以也许这是一种可能性。非常感谢任何人的专家建议。
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)