Copyright © 2022-2025 aizws.net · 网站版本: v1.2.6·内部版本: v1.25.2·
页面加载耗时 0.00 毫秒·物理内存 93.2MB ·虚拟内存 1434.8MB
欢迎来到 AI 中文社区(简称 AI 中文社),这里是学习交流 AI 人工智能技术的中文社区。 为了更好的体验,本站推荐使用 Chrome 浏览器。
在奖励中减去平均奖励




:
是状态 s 的微分值。它们各自对于遍历 MDP 的定义为:
则是一个误差项,当折现因子变为 1 时变为零。状态值的这种分解也意味着状态-动作值有类似的分解。
,也被称为聚中折现值。
表示 t 个时间步骤后的平均奖励估计,则
。更一般地,可以使用步长参数 βt 来更新该估计:





声明:本文转载自机器之心,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。