问题描述
我有两个数据集:一个包含250000个列表的数据集A和一个包含3000000个列表的数据集B。 对于数据集A中的每个列表,我想在数据集中B中找到最相似的列表。
列表的长度不同,并且包含相同长度的字符串。
我意识到,可以采用的方法是计算列表中各个项目之间的levenhstein距离,但是我不知道如何评估各个项目。
这里有一个来自数据集A的列表的示例
listA1 <- list("A61M 16","A61M2207","B29C 33","B29C 45")
这是数据集B中10个观测值的样本
listB <- list('1' = list("H01Q 19"),'2' = list("A61C 7"),'3' = list("A61C 7"),'4' = list("A24B 13","A24D 1","A24F 15","B65D 85"),'5' = list("A47J 27","A47J 37"),'6' = list("C07D 311"),'7' = list("B24B 1","B24B 19","B24B 21","B24B 33"),'8' = list("C08J 5","C08J2327","D01D 5","D01F 8","Y10T 428"),'9' =list("B42F 13"),'10' = list("A61C 1","E03B 7","E03B 9"))
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)