单项选择题

A.UCB算法是优化序列决策问题的方法
B.UCB算法每次随机选择一个赌博机来拉动其臂膀
C.UCB算法既考虑拉动在过去时间内获得最大平均奖赏的赌博机,又希望去选择那些拉动臂膀次数最少的赌博机
D.UCB算法在探索-利用(exploration-exploitation)之间寻找平衡