人工智能完整詞典
一种修改奖励函数以更有效引导智能体学习的技术。必须在保持最优性的同时加速收敛到期望解。
一种简化的顺序优化问题,智能体必须在多个具有未知奖励的选项中进行选择。对于理解优化情境中的探索-利用权衡至关重要。
一种智能体学习如何学习的范式,发展出快速适应新优化任务的能力。将强化学习与元学习原理相结合。