下面哪一种方法不是通过迭代计算贝尔曼方程来进行策略评估（）A.动态规划B.深度学习C.时序差分（Tempora_易学考试网

人工智能

单项选择题

下面哪一种方法不是通过迭代计算贝尔曼方程来进行策略评估（）

A.动态规划
B.深度学习
C.时序差分（Temporal Difference）
D.蒙特卡洛采样

相关考题

单项选择题深度强化学习是深度学习与强化学习的结合。在深度强化学习中，神经网络被用来进行哪个函数的学习（）

单项选择题在强化学习中，哪个机制的引入使得强化学习具备了在利用与探索中寻求平衡的能力（）

判断题与one-hot的单词表达不同，在词向量模型中，单词和单词之间的共现关系被忽略了。

All Rights Reserved 版权所有©易学考试网(yxkao.com)

备案号：湘ICP备2022003000号-3