sklearn ndcg_score 返回错误的结果

问题描述

我正在从事一个涉及使用 NDCG（归一化分布累积增益）的项目，并且我了解该方法的基础计算。

所以我从 ndcg_score 导入了 sklearn.metrics，然后将一个 ground truth 数组和另一个数组传递给 ndcg_score 函数来计算它们的 NDCG 分数。真值数组的值为 [5,4,3,2,1]，而另一个数组的值为 [5,0]，因此这两个数组中只有最后一个元素不同。

from sklearn.metrics import ndcg_score

user_ndcg = ndcg_score(array([[5,1]]),array([[5,0]]))

我预计结果约为 0.96233 (9.88507/10.27192)。然而，user_ndcg 居然返回了 1.0，这让我很惊讶。最初我认为这是由于四舍五入，但事实并非如此，因为当我对另一组数组进行实验时：ndcg_score(array([[5,0]]))，它正确返回了 0.98898。

有谁知道这可能是 sklearn ndcg_score 函数的错误，还是我的代码有问题？

解决方法

我假设您正在尝试为这个问题预测六个不同的类别（0、1、2、3、4 和 5）。如果要评估五个不同观察的 ndcg，则必须向函数传递两个形状为 (5,6) 的数组。

也就是说，您已将基本事实和预测转换为每行 5 行和 6 列的数组。

# Current form of ground truth and predictions
y_true = [5,4,3,2,1]
y_pred = [5,0]
# Transform ground truth to ndarray
y_true_nd = np.zeros(shape=(5,6))
y_true_nd[np.arange(5),y_true] = 1
# Transform predictions to ndarray
y_pred_nd = np.zeros(shape=(5,6))
y_pred_nd[np.arange(5),y_pred] = 1
# Calculate ndcg score
ndcg_score(y_true_nd,y_pred_nd)
> 0.8921866522394966

以下是 y_true_nd 和 y_pred_nd 的样子：

y_true_nd

array([[0.,0.,1.],[0.,1.,0.],0.]])

y_pred_nd

array([[0.,[1.,0.]])

ranking recommendation-engine scikit-learn

sklearn ndcg_score 返回错误的结果

问题描述

解决方法

相关问答