1. value-based和policy gradient的不同:
a. 输出不同: value-based方法 (Q learning, Sara)输出的是或; Policy gradient输出的, 这样 policy gradient 就跳过了 value 这个阶段.
b. 选取action的方式不同: value-based方法是通过的方式选取value最大值的action; =0时是没有随机性的。 policy gradient直接选取最大的.
2. 基于整个回合(episode) 的更新
![]() |
蒙特卡洛方法的策略梯度(整个回合) |
其中可以是一个神经网络的模型, 需要走完一个episode才能计算
3. Actor-Critic方法和其它
![]() |
AC方法的策略梯度(基于step的) |
![]() |
Policy Gradient方法的对比 |
参考资料: