如何使用Vowpal Wabbit的情境强盗学习排名？

问题描述

我正在使用Vowpal Wabbit的上下文强盗对给定上下文的各种动作进行排名。

Train Data:
"1:10:0.1 | 123"
"2:9:0.1 | 123"
"3:8:0.1 | 123"
"4:7:0.1 | 123"
"5:6:0.1 | 123"
"6:5:0.1 | 123"
"7:4:0.1 | 123"

Test Data:
" | 123"

现在，预期的操作等级应该是（从最小损失到最大损失）：

7 6 5 4 3 2 1

使用--cb仅返回最佳操作：

使用--cb_explore返回要探索的动作的pdf，但似乎无助于排名。

[0.0071428571827709675,0.0071428571827709675,0.9571428298950195]

还有其他使用大众汽车的背景土匪进行排名的方法吗？

解决方法

Olga对仓库的回应：https://github.com/VowpalWabbit/vowpal_wabbit/issues/2555

-cb不做任何探索，仅根据输入来训练模型，因此输出将是模型（经过训练的模型）远）预测

-cb_explore默认包含使用epsilon-greedy的探索（如果未指定其他任何内容）。您可以看看所有可用的探索方法

cb_explore的输出是勘探策略给出的PMF（请参阅在这里获取更多信息）。

Epsilon-greedy将以概率e选择一个随机动作来自均匀分布（探索），概率为1-e epsilon-greedy将使用经过广泛训练的模型来预测最佳行动（剥削）。

因此，输出将是操作的pmf（问题1-e或e代表选择的动作），那么剩余的概率将相等在其余动作之间进行分配。因此cb_explore将不会为您提供排名。

排名的一种选择是使用CCB。然后你得到一个排名可以在任何广告位上提供反馈，但计算量更大昂贵。 CCB为每个广告位运行CB，但效果是排名因为每个广告位都来自整个操作池。

我的后续行动：

如果计算限制允许，我认为CCB是一个不错的选择。我只是想补充一点，如果您执行cb_explore或cb_explore_adf，则产生的PMF应该按分数排序，因此它是排序的等级。但是，值得验证的是排序实际上是按得分（-审核会有所帮助），因为我不知道是否要进行测试覆盖这个。

machine-learning recommendation-engine recommender-systems reinforcement-learning vowpalwabbit