在DqnAgent / tf_agents中,log_probability意味着什么

问题描述

在tf_agents DqnAgent docs中,构造函数中有一个名为emit_log_probabilities的参数,对“是否策略发出日志概率”的解释非常无用。

在这种情况下,log_probabilites实际上意味着什么?如果启用它,即使我有很多可能的动作,它也会给我一个标量值而不是向量,所以我认为这不是每个动作的概率。请参阅此unanswered but related post,以获取代理设置的完整代码示例以及emit_log_probability=True

时的操作

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)