题目:Q-learning算法维护一个Q表格,对价值函数进行估计,Q表格里记录每个状态下采取各个动作的价值。()
答案:评论后可见此内容
推荐使用我们的公众号搜索题目,题目更全,检索更方便。支持语音、图片、文字等多种搜索方式。