在python中查找最相似的句子

问题描述

建议/参考链接/代码表示赞赏。

我有一个超过1500行的数据。每行都有一个句子。我正在尝试找出在所有句子中查找最相似句子的最佳方法。

我尝试过的事情

  1. 我尝试了K-mean算法,该算法将相似的句子分组。但是我发现了一个缺点,即必须通过 K 创建集群。很难猜出 K 。我尝试了elbo方法来猜测集群,但将它们分组在一起是不够的。通过这种方法,我将所有数据分组。我正在寻找类似的数据,高于0.90%的数据应返回ID。

  2. 我尝试了余弦相似度,其中我使用print("[LAS|" + substr[0] + "|G" + substr[1] + "|" + substr[2] + "|" + substr[3] + "|<CR>|]") 创建矩阵,然后传入了余弦相似度。即使这种方法也无法正常工作。

我在寻找什么

我希望我可以通过这样一种方法来返回阈值示例,在所有相似且高于0.90%的行中,返回0.90数据。

TfidfVectorizer

预期结果

以上类似的数据(最高可达0.90%)应通过 ID

获得
Data Sample
ID    |   DESCRIPTION
-----------------------------
10    | Cancel ASN WMS Cancel ASN   
11    | MAXPREDO Validation is corect
12    | Move to QC  
13    | Cancel ASN WMS Cancel ASN   
14    | MAXPREDO Validation is right
15    | Verify files are sent every hours for this interface from Optima
16    | MAXPREDO Validation are correct
17    | Move to QC  
18    | Verify files are not sent

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)