欢迎来到易学考试网 易学考试官网
全部科目 > 大学试题 > 计算机科学 > 人工智能

单项选择题

在强化学习中,通过哪两个步骤的迭代,来学习得到最佳策略()

    A.动态规划与Q-Learning
    B.策略优化与策略评估
    C.Q-learning 与贪心策略优化
    D.价值函数计算与动作-价值函数计算

点击查看答案&解析

相关考题

微信小程序免费搜题
微信扫一扫,加关注免费搜题

微信扫一扫,加关注免费搜题