单项选择题

A.动态规划与Q-Learning
B.策略优化与策略评估
C.Q-learning 与贪心策略优化
D.价值函数计算与动作-价值函数计算