单项选择题
在强化学习中,通过哪两个步骤的迭代,来学习得到最佳策略()
A.动态规划与Q-Learning
B.策略优化与策略评估
C.Q-learning 与贪心策略优化
D.价值函数计算与动作-价值函数计算
点击查看答案&解析
相关考题
-
单项选择题
下面哪一种方法不是通过迭代计算贝尔曼方程来进行策略评估()
A.动态规划
B.深度学习
C.时序差分(Temporal Difference)
D.蒙特卡洛采样 -
单项选择题
深度强化学习是深度学习与强化学习的结合。在深度强化学习中,神经网络被用来进行哪个函数的学习()
A.Bellman方程
B.贪心策略函数
C.q函数
D.蒙特卡洛采样函数 -
单项选择题
在强化学习中,哪个机制的引入使得强化学习具备了在利用与探索中寻求平衡的能力()
A.Bellman方程
B.动态规划
C.蒙特卡洛采样
D.贪心策略
