单项选择题
下面对上限置信区间(Upper Confidence Bound,UCB)算法在多臂赌博机中的描述,哪句描述是不正确的()
A.UCB算法是优化序列决策问题的方法
B.UCB算法每次随机选择一个赌博机来拉动其臂膀
C.UCB算法既考虑拉动在过去时间内获得最大平均奖赏的赌博机,又希望去选择那些拉动臂膀次数最少的赌博机
D.UCB算法在探索-利用(exploration-exploitation)之间寻找平衡
点击查看答案&解析
相关考题
-
单项选择题
Alpha和Beta两个值在Alpha-Beta剪枝搜索中被用来判断某个节点的后续节点是否可被剪枝,下面对Alpha和Beta的初始化取值描述正确的是()
A.Alpha和Beta可随机初始化
B.Alpha和Beta初始值分别为负无穷大和正无穷大
C.Alpha的初始值大于Beta的初始值
D.Alpha和Beta初始值分别为正无穷大和负无穷大 -
单项选择题
为了保证A*算法是最优的,需要启发函数具有可容(admissible)和一致(consistency)的特点,下面对启发函数具有可容性这一特点的解释正确的是()
A.启发函数不会过高估计从起始节点到目标结点之间的实际开销代价
B.启发函数不会过高估计从当前节点到目标结点之间的实际开销代价
C.启发函数是递增的
D.启发函数是递减的 -
单项选择题
A*算法是一种有信息搜索算法,在最短路径搜索中引入的辅助信息是()
A.任意一个城市到目标城市之间直线距离
B.旅行者兴趣偏好信息
C.路途中天气和交通状况等信息
D.任意一个城市到起始城市之间直线距离
