题目:下列关于⻢尔可夫决策过程的叙述,错误的是()
A. ⻢尔可夫决策过程的⽬标是得到回报的期望最⼤
B. ⻢尔可夫决策过程综合了过去所有的动作来决定下⼀时刻的动作
C. ⻢尔可夫决策过程的主要元素包括所有状态的集合,所有动作的集合,转移概率算⼦以及奖励函 数
D. 许多强化学习问题都可以转化为⻢尓可夫决策过程来描述
答案:评论后可见此内容
推荐使用我们的公众号搜索题目,题目更全,检索更方便。支持语音、图片、文字等多种搜索方式。