单项选择题
下面对上限置信区间(Upper Confidence Bound,UCB)算法在多臂赌博机中的描述,哪句描述是不正确的()
A.UCB算法是优化序列决策问题的方法B.UCB算法每次随机选择一个赌博机来拉动其臂膀C.UCB算法既考虑拉动在过去时间内获得最大平均奖赏的赌博机,又希望去选择那些拉动臂膀次数最少的赌博机D.UCB算法在探索-利用(exploration-exploitation)之间寻找平衡
单项选择题 Alpha和Beta两个值在Alpha-Beta剪枝搜索中被用来判断某个节点的后续节点是否可被剪枝,下面对Alpha和Beta的初始化取值描述正确的是()
单项选择题 为了保证A*算法是最优的,需要启发函数具有可容(admissible)和一致(consistency)的特点,下面对启发函数具有可容性这一特点的解释正确的是()
单项选择题 A*算法是一种有信息搜索算法,在最短路径搜索中引入的辅助信息是()