强化学习3-策略梯度(policy gradient)

原创 2019-06-26 评论(0) 阅读(0)

1. value-based和policy gradient的不同:
a. 输出不同: value-based方法 (Q learning, Sara)输出的是p(s)p(s)p(s,a)p(s,a); Policy gradient输出的p(as)p(a|s), 这样 policy gradient 就跳过了 value 这个阶段.
b. 选取action的方式不同: value-based方法是通过??greedy\epsilon-greedy的方式选取value最大值的action; ?\epsilon=0时是没有随机性的。 policy gradient直接选取最大的p(as)p(a|s).

2. 基于整个回合(episode) 的更新

蒙特卡洛方法的策略梯度(整个回合)

其中π(AtSt,θ)\pi(A_t|S_t,\theta)可以是一个神经网络的模型, GtG_t需要走完一个episode才能计算

3. Actor-Critic方法和其它

AC方法的策略梯度(基于step的)
Policy Gradient方法的对比

参考资料:

  1. http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching_files/pg.pdf
  2. https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/5-1-policy-gradient-softmax1/
  3. https://zhuanlan.zhihu.com/p/43453846
关注下面的标签,发现更多相似文章 本文TAG标签:
  • 1

    文章

  • 26

    人气

  • 0

    评论

  • 0

    粉丝

强化学习3-策略梯度(policy gradient)

Ta的最新文章

标签大全

阅读目录