字典中词对集的余弦相似度 (Word2Vec) 的均值

问题描述

我正在 Python 中使用这种形式的字典:

 {
     1:[(word1,word2),(word3,word4)],2:[(word5,word6),(word7,word8),(word9,word10)],3:[(word11,word12),(word13,word14)]
}

我正在计算每个词对的余弦相似度(使用 Word2Vec),按如下键索引:

> def get_sim(data,key=int):
>     for key in data:
>         for w1,w2 in temp[1]:
>             print(key,w1,w2,wv.similarity(w1,w2))
get_sim(temp)

从中我得到了这种结果:

1,word1,word2,cos_sim

我的问题:对于与每个键关联的所有相似度分数(cos_sim 值),我想计算平均值(如最终分数)。列表理解有帮助吗?

我的实际问题:哪个模块适合处理上述数据类型?我尝试使用 json,但它将我的键(和 cos_sim 值)转换为字符串,这是我绝对不想要的。即使使用 int(key) 也无济于事。另一方面,Pandas 和 numpy 不适用于字符串,这是我在该行中的第二个和第三个条目。

我对编程还比较陌生,所以非常感谢您提供的任何提示,这将对我有进一步的帮助!

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)