问题描述
我有两列具有约20k行名(并非都是唯一的),我想在两列之间逐行进行比较。我还想比较长度,并获得长度与LV距离的百分比差异,以便根据每行的匹配程度开始对名称进行分组。
子集数据示例:
df <- data.frame(R_Number = c(1:10),A = c('Microsoft','Microsoft Corporation','Microsoft Corp','Microsoft inc','Microsoft','Microsoft INC','Microsoft CORP','MSFt','Microsoft'),B = c('Microsoft','MSFT','MSFT Corp','Apple inc','Microsoft corp','AMZN','Amazon'))
用于计算col行之间的差异的stringdist函数示例:
test_2 <- sapply(dist.methods,function(lv) stringdist(df$A,df$B,method=lv))
我得到了一个输出表,但是我无法直观地看到它并获得一个新的字段/表,该字段/表显示每行的LV距离并显示其对应名称。
所需的输出:
A | B | LV_DIST
MSFT Microsoft 8
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)