🏠 首页
基准测试
📊 所有基准测试 🦖 恐龙 v1 🦖 恐龙 v2 ✅ 待办事项应用 🎨 创意自由页面 🎯 FSACB - 终极展示 🌍 翻译基准测试
模型
🏆 前 10 名模型 🆓 免费模型 📋 所有模型 ⚙️ 🛠️ 千行代码模式
资源
💬 💬 提示库 📖 📖 AI 词汇表 🔗 🔗 有用链接

AI 词汇表

人工智能完整词典

200
个类别
2,608
个子类别
30,011
个术语
📖
个术语

Q-Learning Multi-Objectifs

传统Q-Learning算法的扩展,它处理奖励向量而不是标量值,允许同时优化多个冲突目标。

📖
个术语

Vecteur de Q-valeurs

一种多维数据结构,其中每个元素代表特定目标的Q值,取代了经典Q-Learning中的单一标量值。

📖
个术语

Approche Lexicographique

一种多目标解决策略,其中目标按优先级排序并顺序优化,每个目标只有在更高优先级的目标完全优化后才被考虑。

📖
个术语

Compromis Multi-objectifs

在改进某些目标与潜在恶化其他目标之间所需的平衡,这是具有冲突目标的优化问题中固有的。

📖
个术语

Q-valeur Pondérée

使用特定权重对每个目标的个体Q值进行线性组合,以反映每个目标在最终决策中的相对重要性。

📖
个术语

Algorithme de Pareto Q-Learning

Q-Learning的一种变体,它维护一组帕累托最优策略,并同时学习所有可能目标权衡的Q值。

📖
个术语

Exploration Multi-objectifs

一种适用于多目标环境的探索策略,必须在发现不同目标之间的权衡与保持学习效率之间取得平衡。

📖
个术语

Équilibre de Nash en Q-Learning

应用于多目标Q-Learning的博弈论概念,其中没有任何策略可以在不降低其在另一个目标上的性能的情况下,单方面地提高其在某个目标上的性能。

📖
个术语

目标分解

一种将多目标问题转换为多个单目标子问题并同时优化的技术,有助于在帕累托前沿发现多样化的解决方案。

📖
个术语

奖励向量

一种多维奖励向量,其中每个分量对应于特定目标的奖励,替代了传统的标量奖励信号。

📖
个术语

策略空间适应

动态调整策略空间的机制,以有效处理学习问题的多目标性质带来的额外复杂性。

🔍

未找到结果