显式评分的悖论

问题描述

在使用 Movielens 100k 数据集调查负面案例对模型性能的影响的过程中,我有一个问题。我做了两个实验来评估模型性能

在第一个实验中,从 Movielens 100k 数据集中提取了 55,375 个评级为 4 和 5 的案例,归为正案例(目标 = 1),而评级为 1 和 2 的 17,480 个案例被提取为负面案例(目标 = 0 )。构建训练模型后,性能评估结果如下。

--------------------------------------

          precision    recall  f1-score   support
       0       0.67      0.47      0.55      5200
       1       0.85      0.93      0.89     16657

accuracy                           0.82     21857

aucs = 0.8306274331419916 rmse = 0.36533634653541674

在第二个实验中,从 Movielens 100k 数据集中抽取了 55,375 个评分为 4 和 5 的案例,并分类为正案例(目标 = 1),对于负面案例,从未知细胞中随机抽取了 17,480 个案例,训练构建数据并评估性能。评价结果如下。

-----------------------------------

          precision    recall  f1-score   support
       0       0.77      0.60      0.67      5292
       1       0.88      0.94      0.91     16565
accuracy                           0.86     21857

aucs = 0.8838642248327038 rmse = 0.325668345531158

最初,我认为第一个实验的性能会比第二个实验的性能好。这是因为第一个实验模型预计会比使用随机提取的负面案例的模型表现得更好,因为即使是负面案例数据也包含用户偏好模式。 例如,在为喜欢科幻类型的用户随机生成负面案例的过程中,可以添加一些其他的科幻电影作为负面案例。由于这个原因,推荐模型的性能将不可避免地由于用户喜欢和不喜欢SF电影的信息混合而下降。然而,结果表明,随机生成负面案例的第二个实验模型的性能优于第一个实验模型,与想法相反。是不是因为用户评分信息中有很多噪音?你认为是什么原因?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)