妥协方法 - AI 术语表

📖

个术语

Pondération Linéaire

一种标量化方法，通过加权和将目标组合起来，权重根据决策者的偏好代表每个目标的相对重要性。

📖

个术语

Q-Learning Multi-Objectif

传统Q学习的扩展，其中每个动作拥有一个Q值向量而非标量值，需要针对权衡的特定动作选择标准。

📖

个术语

Politique Non-Dominée

策略空间中的动作策略，其性能不会被任何其他策略在所有目标上同时超越，保证了帕累托最优性。

📖

个术语

Hyperplan de Scalarisation

一种使用目标空间中的超平面将解投影到标量维度的技术，允许根据预定义方向对权衡进行结构化探索。

📖

个术语

Tchebycheff Scalarisation

一种基于到参考点的加权切比雪夫距离的标量化方法，即使对于非凸问题也能保证获得帕累托最优解。

📖

个术语

Reward Shaping Multi-Objectif

一种修改向量奖励函数以加速学习，同时保持最终多目标策略最优性的技术。

📖

个术语

Trade-off Dynamique

一种在学习过程中调整目标间权重或偏好的方法，允许根据环境变化灵活探索权衡空间。

📖

个术语

Préférences à Priori

一种在优化过程之前指定决策者偏好的方法，引导搜索朝向帕累托前沿的特定区域。

📖

个术语

后验偏好

首先生成完整的帕累托最优解集，然后允许决策者在可视化和分析后选择偏好的解的策略。

📖

个术语

参考点方法

使用目标空间中的参考点来引导搜索朝向达到或超过期望性能水平的解的技术。

📖

个术语

乌托邦向量

目标空间中同时优化每个单独目标的理论点，用作评估标量化方法中权衡的参考。

📖

个术语

切比雪夫距离

使用分量间绝对差最大值的度量，特别适用于测量多目标优化中与目标的偏差。

📖

个术语

增广标量化

扩展线性加权，添加基于目标最小偏差的惩罚项，确保获得严格帕累托最优解。

📖

个术语

聚合函数

数学运算，将多个目标值组合为单一标量值，作为评估和比较多目标空间中解的标准。

📖

个术语

妥协策略

根据定义偏好平衡矛盾目标的行动策略，通常通过自适应权重或动态约束实现。

📖

个术语

多目标纳什均衡

将纳什均衡扩展到多目标情境的概念，其中每个代理在相互均衡约束下优化自己的目标向量。

AI 词汇表