计算清单的相似度分数

问题描述

我有两个数据集:一个包含250000个列表的数据集A和一个包含3000000个列表的数据集B。 对于数据集A中的每个列表,我想在数据集中B中找到最相似的列表。

列表的长度不同,并且包含相同长度的字符串。

我意识到,可以采用的方法是计算列表中各个项目之间的levenhstein距离,但是我不知道如何评估各个项目。

这里有一个来自数据集A的列表的示例

listA1 <- list("A61M  16","A61M2207","B29C  33","B29C  45")

这是数据集B中10个观测值的样本

listB <- list('1' = list("H01Q  19"),'2' = list("A61C   7"),'3' = list("A61C   7"),'4' = list("A24B  13","A24D   1","A24F  15","B65D  85"),'5' = list("A47J  27","A47J  37"),'6' = list("C07D 311"),'7' = list("B24B   1","B24B  19","B24B  21","B24B  33"),'8' = list("C08J   5","C08J2327","D01D   5","D01F   8","Y10T 428"),'9' =list("B42F  13"),'10' = list("A61C   1","E03B   7","E03B   9"))

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)