连续多目标强化学习

📖

个术语

向量奖励函数

返回奖励向量而不是标量的回报函数，允许在强化学习中同时捕获多个冲突目标。

📖

个术语

多目标策略优化

同时优化多个策略或单个策略以优化对应于不同目标的多个值函数的过程。

📖

个术语

连续动作空间强化学习

智能体可以从无限连续动作中选择动作的强化学习范式，需要PPO或SAC等适应性优化算法。

📖

个术语

基于偏好的强化学习

将人类对目标间权衡的偏好整合到学习过程中，引导智能体找到帕累托前沿上理想解决方案的方法。

📖

个术语

凸帕累托前沿

具有数学凸性的帕累托前沿，可以使用线性标量化方法找到所有最优解。

📖

个术语

加权和法

用系数加权每个目标来创建标量目标函数的技术，简单但限于凸帕累托前沿。

📖

个术语

切比雪夫标量化

使用切比雪夫范数的标量化方法，即使在非凸前沿上也能保证发现帕累托最优解。

📖

个术语

多目标强化学习中的纳什均衡

没有任何智能体能通过单方面改变策略来改善自己位置的均衡点，应用于具有连续动作的多目标博弈。

📖

个术语

动态权重

一种自适应策略，在学习过程中修改目标的权重，以有效地探索帕累托前沿并避免局部最优。

📖

个术语

非支配解

一组解的集合，其中没有解在所有目标上都严格优于另一个解，构成帕累托最优解集。

📖

个术语

字典序排序

一种分层方法，其中目标按照绝对优先级顺序依次优化，不同等级的目标之间没有妥协。

📖

个术语

随机多目标策略

在连续动作空间中的概率策略，同时优化多个目标，通常实现为参数化的高斯分布。

📖

个术语

连续帕累托优化

在学习过程中持续优化帕累托前沿，使智能体能够动态调整目标之间的权衡。

📖

个术语

多目标演员-评论家

结合演员和评论家的算法架构，适用于多目标问题，具有向量值函数和多目标策略。

📖

个术语

动作空间分解

将连续动作空间划分为每个目标的专门子空间的技术，便于在复杂环境中进行多目标优化。

📖

个术语

多目标探索-利用

扩展到多目标问题的两难困境，其中探索旨在发现各种最优权衡，而不是单一的最优解。

AI 词汇表