Vowpal Wabbit:为背景强盗设定的动作大小有限制吗?

问题描述

对于Vowpal Wabbit的上下文强盗框架,可以采取的行动数量是否有限制?我假设当前不支持无穷大动作集的问题(例如Rn中的l2球)。但是,有限的一组动作可以有多大?还是仅受运行该库的硬件限制?

我可以想到的潜在问题/担忧是浮点错误(例如,用于预测一组操作中的PMF),缓慢的预测/更新以及特定的探索策略/政策评估方法不能很好地发挥作用一个很大的行动空间。

修改:我正在考虑的操作数在1000-100,000之间

解决方法

我假设当前不支持无穷大操作集的问题

正确,目前尚不支持。

但是,有限的一组动作可以有多大?还是仅受运行该库的硬件限制?

我不认为操作集大小会有具体/人为的限制,因此硬件可能是限制。在内部,操作ID是32位数字,因此2^32肯定有限制。至于其他问题,如果您遇到类似问题,请随时提出一个问题,我们可以与您一起解决这些问题。绝对是应该解决的问题。