书名:
AI自动化测试:技术原理、平台搭建与工程实践
作者名:
腾讯TuringLab团队
本章字数:
93字
更新时间:
2025-03-22 17:36:04
3.3 基于策略梯度的强化学习
与基于值函数的强化学习方法相对应的是基于策略梯度的强化学习方法,这类方法不会评价策略的好坏,而是使用采样的方法直接优化策略,使其向着更大的累积奖励期望的目标改进。
本周热推:
Python编程:从入门到实践
Python编程:从入门到实践(第2版)
深度学习入门:基于Python的理论与实现
汇编语言简明教程
Kotlin核心编程
上一章
目录
下一章