3.3 基于策略梯度的强化学习_AI自动化测试：技术原理、平台搭建与工程实践-QQ阅读女生幻言网

书名：AI自动化测试：技术原理、平台搭建与工程实践
作者名：腾讯TuringLab团队
本章字数：93字
更新时间：2025-03-22 17:36:04

3.3　基于策略梯度的强化学习

与基于值函数的强化学习方法相对应的是基于策略梯度的强化学习方法，这类方法不会评价策略的好坏，而是使用采样的方法直接优化策略，使其向着更大的累积奖励期望的目标改进。

本周热推：

Python编程：从入门到实践 Python编程：从入门到实践（第2版）深度学习入门：基于Python的理论与实现汇编语言简明教程 Kotlin核心编程

上一章目录下一章