余弦相似度影响

问题描述

我正在计算余弦相似度以了解一些年度趋势,我很好奇是否有办法查看哪些值对相似度贡献最大?

是否有用于单词列表的影响计算或方法(我认为这将是最相似的应用程序)可以说明列表中哪些单词对相似度得分的贡献最大?

解决方法

对余弦相似度贡献最大的值是相乘时产生最大(绝对)值的值。

u = [0,1,1]
v = [2,3,2,5]

indices = list(range(len(u)))
most_contributing = max(indices,key=lambda i: abs(u[i] * v[i]))