上下文强盗的算法又名 UCB 在哪里？

问题描述

你好，首先让我说我以前没有真正与上下文强盗合作过；我与多臂强盗以及蒙特卡洛树搜索有过很多合作。无论如何，我习惯于使用 UCB 作为 MAB 的首选，所以当我在 VowpalWabbit 的文档中根本找不到 UCB 时，我感到非常惊讶。据我了解，UCB 并不直接适用于问题的上下文表述，但有一些适应，例如 LinearUCB。

我的问题是 - 我错过了什么？ UCB 是否存在，但名称不同？它是否被故意省略，因为它比已实现的另一种算法更糟糕？如果是这样，这是哪个（/这些）算法，它如何更好？

解决方法

VW 有一个 RND 资源管理器（见页尾 here），它相当于 LinearUCB 边界的随机近似值，所以它可能正是您要找的。p>

vowpalwabbit