Gensim 的evaluate_word_pairs 的输出中使用了哪些指标?

问题描述

Gensim 为 evaluating semantic similarity 提供了evaluate_word_pairs 函数

这是其页面上的示例:

model.wv.evaluate_word_pairs(datapath('wordsim353.tsv'))

Out:
((0.1014236962315867,0.44065378924434523),SpearmanrResult(correlation=0.07441989763914543,pvalue=0.5719973648460552),83.0028328611898)

我想知道在输出生成每个值(0.1014236962315867,0.44065378924434523,...) 的指标是什么?

解决方法

根据documentation for evaluate_word_pairs()

退货

  • pearson (tuple of (float,float)) – 具有 2 尾 p 值的 Pearson 相关系数。
  • spearman (tuple of (float,float)) – 数据集的相似性与模型本身产生的相似性之间的 Spearman 等级相关系数,其中2 尾 p 值。
  • oov_ratio (float) – 未知词对的比例。

根据您的输出,看起来 Pearson 结果仍然只是一个普通元组,而 Spearman 结果已报告为命名元组。但在每种情况下,相关系数似乎都是 1st,然后是 p 值。

请注意,oov_ratio 报告为模型未知的测试词的百分比

有关 PearsonSpearman 系数/p 值的定义/解释,请参阅其他参考资料。