如何将动作依赖特征 (ADF) 从分类转换为连续/离散?

问题描述

我正在使用 cb_explore_adf 在上下文 MAB 上关注 Vowpalwabbit tutorial,我想知道如何将操作命名空间功能转换为数字,以便它可以更好地泛化新的手臂。

在本教程中,他们提出了点击率 (CTR) 问题,其中操作是要显示文章类型

shared |User user=Tom time_of_day=morning
|Action article=politics
|Action article=sports
|Action article=music
|Action article=food

如我们所见,命名空间 Action 中的文章特征被设置为一个分类值(政治、食物等...)

是否可以将其转换为数字?假设在我的问题中,我向消费者展示了价格:

shared |User user=Tom time_of_day=morning
|Action price=2.99
|Action price=10.99

如果我想测试一个新的价格,比如说 6.99 美元……之前的培训会带来一些信息吗?

据我所知,VowpalWabbit 使用“:”来表示数字特征……这是真的吗?

shared |User user=Tom time_of_day=morning
|Action price:2.99
|Action price:10.99

我试过了,但没有用……实际上它使模型无法覆盖。

我错过了什么?

谢谢

解决方法

您使用数字特征的方式是正确的。 您还在尝试使用教程中提供的模拟器吗? 如果是这样,您是否更改了奖励逻辑(get_cost 函数) - 现在它是根据人和 time_of_day 分配奖励。如果您想体验新功能,您可能需要更改逻辑,以使奖励与您的新功能相关联。