问题描述
Gensim 为 evaluating semantic similarity 提供了evaluate_word_pairs 函数。
这是其页面上的示例:
model.wv.evaluate_word_pairs(datapath('wordsim353.tsv'))
Out:
((0.1014236962315867,0.44065378924434523),SpearmanrResult(correlation=0.07441989763914543,pvalue=0.5719973648460552),83.0028328611898)
我想知道在输出中生成每个值(0.1014236962315867,0.44065378924434523,...) 的指标是什么?
解决方法
根据documentation for evaluate_word_pairs()
:
退货
- pearson (tuple of (float,float)) – 具有 2 尾 p 值的 Pearson 相关系数。
- spearman (tuple of (float,float)) – 数据集的相似性与模型本身产生的相似性之间的 Spearman 等级相关系数,其中2 尾 p 值。
- oov_ratio (float) – 未知词对的比例。
根据您的输出,看起来 Pearson 结果仍然只是一个普通元组,而 Spearman 结果已报告为命名元组。但在每种情况下,相关系数似乎都是 1st,然后是 p 值。
请注意,oov_ratio
报告为模型未知的测试词的百分比。