🏠 Accueil
基準測試
📊 Tous les Benchmarks 🦖 Dinosaure v1 🦖 Dinosaure v2 ✅ To-Do List Apps 🎨 Pages Libres 🎯 FSACB - Showcase 🌍 Traduction
Modèles
🏆 Top 10 Modèles 🆓 Modèles Gratuits 📋 Tous les Modèles ⚙️ Modes Kilo Code
Ressources
💬 Prompts IA 📖 人工智能詞彙表 🔗 Liens Utiles

AI 詞彙表

人工智能完整詞典

200
類別
2,608
子類別
30,011
術語
📖
術語

Q-Learning Multi-Objectifs

传统Q-Learning算法的扩展,它处理奖励向量而不是标量值,允许同时优化多个冲突目标。

📖
術語

Vecteur de Q-valeurs

一种多维数据结构,其中每个元素代表特定目标的Q值,取代了经典Q-Learning中的单一标量值。

📖
術語

Approche Lexicographique

一种多目标解决策略,其中目标按优先级排序并顺序优化,每个目标只有在更高优先级的目标完全优化后才被考虑。

📖
術語

Compromis Multi-objectifs

在改进某些目标与潜在恶化其他目标之间所需的平衡,这是具有冲突目标的优化问题中固有的。

📖
術語

Q-valeur Pondérée

使用特定权重对每个目标的个体Q值进行线性组合,以反映每个目标在最终决策中的相对重要性。

📖
術語

Algorithme de Pareto Q-Learning

Q-Learning的一种变体,它维护一组帕累托最优策略,并同时学习所有可能目标权衡的Q值。

📖
術語

Exploration Multi-objectifs

一种适用于多目标环境的探索策略,必须在发现不同目标之间的权衡与保持学习效率之间取得平衡。

📖
術語

Équilibre de Nash en Q-Learning

应用于多目标Q-Learning的博弈论概念,其中没有任何策略可以在不降低其在另一个目标上的性能的情况下,单方面地提高其在某个目标上的性能。

📖
術語

目标分解

一种将多目标问题转换为多个单目标子问题并同时优化的技术,有助于在帕累托前沿发现多样化的解决方案。

📖
術語

奖励向量

一种多维奖励向量,其中每个分量对应于特定目标的奖励,替代了传统的标量奖励信号。

📖
術語

策略空间适应

动态调整策略空间的机制,以有效处理学习问题的多目标性质带来的额外复杂性。

🔍

搵唔到結果