多目标Q学习 - AI 术语表

📖

个术语

Q-Learning Multi-Objectifs

传统Q-Learning算法的扩展，它处理奖励向量而不是标量值，允许同时优化多个冲突目标。

📖

个术语

Vecteur de Q-valeurs

一种多维数据结构，其中每个元素代表特定目标的Q值，取代了经典Q-Learning中的单一标量值。

📖

个术语

Approche Lexicographique

一种多目标解决策略，其中目标按优先级排序并顺序优化，每个目标只有在更高优先级的目标完全优化后才被考虑。

📖

个术语

Compromis Multi-objectifs

在改进某些目标与潜在恶化其他目标之间所需的平衡，这是具有冲突目标的优化问题中固有的。

📖

个术语

Q-valeur Pondérée

使用特定权重对每个目标的个体Q值进行线性组合，以反映每个目标在最终决策中的相对重要性。

📖

个术语

Algorithme de Pareto Q-Learning

Q-Learning的一种变体，它维护一组帕累托最优策略，并同时学习所有可能目标权衡的Q值。

📖

个术语

Exploration Multi-objectifs

一种适用于多目标环境的探索策略，必须在发现不同目标之间的权衡与保持学习效率之间取得平衡。

📖

个术语

Équilibre de Nash en Q-Learning

应用于多目标Q-Learning的博弈论概念，其中没有任何策略可以在不降低其在另一个目标上的性能的情况下，单方面地提高其在某个目标上的性能。

📖

个术语

目标分解

一种将多目标问题转换为多个单目标子问题并同时优化的技术，有助于在帕累托前沿发现多样化的解决方案。

📖

个术语

奖励向量

一种多维奖励向量，其中每个分量对应于特定目标的奖励，替代了传统的标量奖励信号。

📖

个术语

策略空间适应

动态调整策略空间的机制，以有效处理学习问题的多目标性质带来的额外复杂性。

AI 词汇表