AI 词汇表
人工智能完整词典
200
个类别
2,608
个子类别
30,011
个术语
个术语
Q-Learning Multi-Objectifs
传统Q-Learning算法的扩展,它处理奖励向量而不是标量值,允许同时优化多个冲突目标。
个术语
Vecteur de Q-valeurs
一种多维数据结构,其中每个元素代表特定目标的Q值,取代了经典Q-Learning中的单一标量值。
个术语
Approche Lexicographique
一种多目标解决策略,其中目标按优先级排序并顺序优化,每个目标只有在更高优先级的目标完全优化后才被考虑。
个术语
Compromis Multi-objectifs
在改进某些目标与潜在恶化其他目标之间所需的平衡,这是具有冲突目标的优化问题中固有的。
个术语
Q-valeur Pondérée
使用特定权重对每个目标的个体Q值进行线性组合,以反映每个目标在最终决策中的相对重要性。
个术语
Algorithme de Pareto Q-Learning
Q-Learning的一种变体,它维护一组帕累托最优策略,并同时学习所有可能目标权衡的Q值。
个术语
Exploration Multi-objectifs
一种适用于多目标环境的探索策略,必须在发现不同目标之间的权衡与保持学习效率之间取得平衡。
个术语
Équilibre de Nash en Q-Learning
应用于多目标Q-Learning的博弈论概念,其中没有任何策略可以在不降低其在另一个目标上的性能的情况下,单方面地提高其在某个目标上的性能。
个术语
目标分解
一种将多目标问题转换为多个单目标子问题并同时优化的技术,有助于在帕累托前沿发现多样化的解决方案。
个术语
奖励向量
一种多维奖励向量,其中每个分量对应于特定目标的奖励,替代了传统的标量奖励信号。
个术语
策略空间适应
动态调整策略空间的机制,以有效处理学习问题的多目标性质带来的额外复杂性。
🔍