寻找一组文档的最佳相似性度量

问题描述

作为NLP的新手,我正在尝试寻找一个似乎没有充分记录的问题的解决方案-估计而不是一对文件的相似度文件。

假设我有两组词db.collection("rooms").where("code","==",this.state.code).get().then(querySnapshot => { querySnapshot.docs.forEach(snapshot => { // handle each document individually,if any }) }); a,我希望能够断言一组中的词在整体上彼此更相似 而不是第二组中的。举一个简单的例子:

b

在这里,我使用余弦相似度方法(0 =相同,1 =不相似)应用于组中所有可能的单词对。

对于那些对NLP和字符串距离功能更有经验的人来说,使用所有文档对的平均余弦距离来衡量组内相似度是否有意义?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)

相关问答

错误1:Request method ‘DELETE‘ not supported 错误还原:...
错误1:启动docker镜像时报错:Error response from daemon:...
错误1:private field ‘xxx‘ is never assigned 按Alt...
报错如下,通过源不能下载,最后警告pip需升级版本 Requirem...