Vowpal Wabbit：为背景强盗设定的动作大小有限制吗？

对于Vowpal Wabbit的上下文强盗框架，可以采取的行动数量是否有限制？我假设当前不支持无穷大动作集的问题（例如Rn中的l2球）。但是，有限的一组动作可以有多大？还是仅受运行该库的硬件限制？

我可以想到的潜在问题/担忧是浮点错误（例如，用于预测一组操作中的PMF），缓慢的预测/更新以及特定的探索策略/政策评估方法不能很好地发挥作用一个很大的行动空间。

修改：我正在考虑的操作数在1000-100,000之间

我假设当前不支持无穷大操作集的问题

正确，目前尚不支持。

但是，有限的一组动作可以有多大？还是仅受运行该库的硬件限制？

我不认为操作集大小会有具体/人为的限制，因此硬件可能是限制。在内部，操作ID是32位数字，因此2^32肯定有限制。至于其他问题，如果您遇到类似问题，请随时提出一个问题，我们可以与您一起解决这些问题。绝对是应该解决的问题。