基于Q学习的最短路径算法

问题描述

我正在尝试实现基于Q学习的最短路径算法。但是,有时我的路径与基于相同起点和目的地的经典最短路径算法不同。这是我对算法建模的方式:

  • 环境:是直接加权图G =(V,E)
  • 状态:图形中的当前顶点
  • 动作:图形中当前顶点的后继顶点
  • 奖励:边缘到后继顶点的权重
  • Epsisode :从特定来源到达目标目的地的过程

我已经尝试了更多的情节(例如1.000.000)以及学习率和折扣因子的不同值,但似乎仍无法收敛。这是我的代码链接https://colab.research.google.com/drive/1Z84t5_W5wxkX7eXnWp8CdxqhLXMFYzf4?usp=sharing

有人对我做错了什么或应该怎么做避免发生此类问题有任何想法吗?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)