如何确保所有用户和所有项目都出现在我的推荐系统的训练集中?

问题描述

我正在使用 MovieLens 数据集 (https://grouplens.org/datasets/movielens/latest/) 在 Python 中构建一个推荐系统。为了让我的系统正常工作,我需要所有用户和所有项目都出现在训练集中。但是,我还没有找到一种方法来做到这一点。我尝试在与每个用户相关的数据集的分区上使用 sklearn.model_selection.train_test_split,然后将结果连接起来,从而成功地创建了包含每个用户给出的至少一个评分的训练和测试数据集。我现在需要的是找到一种方法来创建训练和测试数据集,其中每部电影至少包含一个评分。

解决方法

这个要求非常合理,但我所知道的任何框架的数据摄取例程都不支持。大多数训练范式都假设您的数据集填充得足够多,遗漏任何一个输入或输出的可能性可以忽略不计。

既然你需要保证这一点,你就需要切换到算法解决方案,而不是概率解决方案。我建议你用输入和输出标记每个观察,然后将“集合覆盖问题”应用到数据集。

您可以根据需要继续使用尽可能多的不同覆盖集来填充您的训练集(我推荐)。或者,您可以设置一个较低的要求阈值——比如获得三组总覆盖率——然后将其余部分恢复为随机方法。