单项选择题
下面哪一种方法不是通过迭代计算贝尔曼方程来进行策略评估()
A.动态规划B.深度学习C.时序差分(Temporal Difference)D.蒙特卡洛采样
单项选择题 深度强化学习是深度学习与强化学习的结合。在深度强化学习中,神经网络被用来进行哪个函数的学习()
单项选择题 在强化学习中,哪个机制的引入使得强化学习具备了在利用与探索中寻求平衡的能力()
判断题 与one-hot的单词表达不同,在词向量模型中,单词和单词之间的共现关系被忽略了。