上QQ阅读APP看书,第一时间看更新
去QQ阅读APP
上一章
目录
下一章
3.3 基于策略梯度的强化学习
与基于值函数的强化学习方法相对应的是基于策略梯度的强化学习方法,这类方法不会评价策略的好坏,而是使用采样的方法直接优化策略,使其向着更大的累积奖励期望的目标改进。
本周热推:
Python编程:从入门到实践
Python编程:从入门到实践(第2版)
汇编语言简明教程
深度学习入门:基于Python的理论与实现
编码:隐匿在计算机软硬件背后的语言
上一章
目录
下一章