下列关于状态值函数v<sub>π(s)和动作值函数q<sub>π(s, a)的叙述,说法正确的是()

lk2024-12-16  1

题目:下列关于状态值函数vπ(s)和动作值函数qπ(s, a)的叙述,说法正确的是()

A. 状态值函数vπ(s)表示从状态s出发,执⾏动作a后再使⽤策略π带来的回报期望

B. 给定初始状态s时,状态值函数可以使⽤动作值函数表示,即vπ(s) = Ea(qπ(s, a))

C. 动作值函数qπ(s, a)表示从状态s出发,使⽤策略π带来的回报期望

D. 最优值函数v∗ (s) 与最优状态值函数 q∗(s, a)的值相同

答案:评论后可见此内容

本站资源均来自互联网,侵权请联系站长删除

最新回复(0)
公众号图片
🔥推荐

推荐使用我们的公众号搜索题目,题目更全,检索更方便。支持语音、图片、文字等多种搜索方式。