题目:下列关于状态值函数vπ(s)和动作值函数qπ(s, a)的叙述,说法正确的是()
A. 状态值函数vπ(s)表示从状态s出发,执⾏动作a后再使⽤策略π带来的回报期望
B. 给定初始状态s时,状态值函数可以使⽤动作值函数表示,即vπ(s) = Ea(qπ(s, a))
C. 动作值函数qπ(s, a)表示从状态s出发,使⽤策略π带来的回报期望
D. 最优值函数v∗ (s) 与最优状态值函数 q∗(s, a)的值相同
答案:评论后可见此内容
推荐使用我们的公众号搜索题目,题目更全,检索更方便。支持语音、图片、文字等多种搜索方式。