问题描述
建议/参考链接/代码表示赞赏。
我有一个超过1500行的数据。每行都有一个句子。我正在尝试找出在所有句子中查找最相似句子的最佳方法。
我尝试过的事情
-
我尝试了K-mean算法,该算法将相似的句子分组。但是我发现了一个缺点,即必须通过 K 创建集群。很难猜出 K 。我尝试了elbo方法来猜测集群,但将它们分组在一起是不够的。通过这种方法,我将所有数据分组。我正在寻找类似的数据,高于0.90%的数据应返回ID。
-
我尝试了余弦相似度,其中我使用
print("[LAS|" + substr[0] + "|G" + substr[1] + "|" + substr[2] + "|" + substr[3] + "|<CR>|]")
创建矩阵,然后传入了余弦相似度。即使这种方法也无法正常工作。
我在寻找什么
我希望我可以通过这样一种方法来返回阈值示例,在所有相似且高于0.90%的行中,返回0.90数据。
TfidfVectorizer
预期结果
以上类似的数据(最高可达0.90%)应通过 ID
获得Data Sample
ID | DESCRIPTION
-----------------------------
10 | Cancel ASN WMS Cancel ASN
11 | MAXPREDO Validation is corect
12 | Move to QC
13 | Cancel ASN WMS Cancel ASN
14 | MAXPREDO Validation is right
15 | Verify files are sent every hours for this interface from Optima
16 | MAXPREDO Validation are correct
17 | Move to QC
18 | Verify files are not sent
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)