3.3 基于策略梯度的强化学习

与基于值函数的强化学习方法相对应的是基于策略梯度的强化学习方法,这类方法不会评价策略的好坏,而是使用采样的方法直接优化策略,使其向着更大的累积奖励期望的目标改进。