深度强化学习多目标

📖

个术语

多目标行动策略

一种将状态映射到行动的策略，同时考虑多个目标。与传统的单目标策略不同，它必须在不同且常常相互矛盾的目标之间平衡偏好。

📖

个术语

向量值函数

强化学习中Q值函数的扩展，其中每个状态-行动对都与一个值向量相关联，每个目标对应一个值。这种表示能够捕获不同目标之间的权衡，而无需先验聚合。

📖

个术语

加权标量化

通过为每个目标分配权重并线性组合，将多目标问题转化为单目标问题的技术。通过修改权重，这种方法可以探索帕累托前沿上的不同解决方案。

📖

个术语

多目标深度Q网络

适配多目标问题的深度Q网络架构，使用深度神经网络近似向量值Q函数。网络学习同时估计每个目标的回报值，同时保持权衡的一致性。

📖

个术语

向量奖励

奖励结构，其中状态中的每个行动生成一个奖励向量，而不是单一的标量值。向量的每个分量对应于问题特定目标的进展。

📖

个术语

多目标近端策略优化

针对多目标环境的近端策略优化算法的适配，同时优化多个目标函数。算法在探索目标之间的权衡空间时保持邻近性约束。

📖

个术语

目标权衡

描述不同目标之间必要权衡的概念，当一个目标的改进必然导致另一个目标恶化时。权衡分析对于识别帕累托最优解决方案至关重要。

📖

个术语

帕累托最优策略连续体

连续的行动策略集合，所有策略都是帕累托最优的，代表目标之间的不同偏好。这个连续体允许决策者选择最符合其优先级的策略。

📖

个术语

多目标元学习

一种方法，其中代理通过发现通用适应策略来学习解决多目标问题。元学习可以有效地在不同问题之间转移关于权衡的知识。

📖

个术语

多目标纳什均衡

应用于多目标问题的博弈论概念，其中没有代理可以在不影响其他代理的情况下改善其在一个目标上的位置。均衡代表了在多代理多目标环境中的稳定解决方案。

📖

个术语

非线性聚合

使用非线性函数而不是线性权重来组合目标的方法，以捕获目标之间的复杂关系。这些方法允许建模更复杂的偏好和非加性交互。

AI 词汇表