在python中查找最相似的句子

问题描述

建议/参考链接/代码表示赞赏。

我有一个超过1500行的数据。每行都有一个句子。我正在尝试找出在所有句子中查找最相似句子的最佳方法。

我尝试过的事情

我尝试了K-mean算法，该算法将相似的句子分组。但是我发现了一个缺点，即必须通过 K 创建集群。很难猜出 K 。我尝试了elbo方法来猜测集群，但将它们分组在一起是不够的。通过这种方法，我将所有数据分组。我正在寻找类似的数据，高于0.90％的数据应返回ID。
我尝试了余弦相似度，其中我使用print("[LAS|" + substr[0] + "|G" + substr[1] + "|" + substr[2] + "|" + substr[3] + "|<CR>|]")创建矩阵，然后传入了余弦相似度。即使这种方法也无法正常工作。

我在寻找什么

我希望我可以通过这样一种方法来返回阈值示例，在所有相似且高于0.90％的行中，返回0.90数据。

TfidfVectorizer

预期结果

以上类似的数据（最高可达0.90％）应通过 ID

获得

Data Sample
ID    |   DESCRIPTION
-----------------------------
10    | Cancel ASN WMS Cancel ASN   
11    | MAXPREDO Validation is corect
12    | Move to QC  
13    | Cancel ASN WMS Cancel ASN   
14    | MAXPREDO Validation is right
15    | Verify files are sent every hours for this interface from Optima
16    | MAXPREDO Validation are correct
17    | Move to QC  
18    | Verify files are not sent

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

python scikit-learn sentence-similarity tensorflow