题目:下列关于强化学习的说法不正确的是()。
A. Policy based的强化学习类型要明显优于Value based和Action based的方法
B. 强化学习中的Agent有明确的目标用于指导自己的行为
C. Agent的模型参数是根据环境的反馈来更新
D. 强化学习被广泛应用在自动驾驶、电子竞技和AI游戏中
答案:评论后可见此内容
推荐使用我们的公众号搜索题目,题目更全,检索更方便。支持语音、图片、文字等多种搜索方式。