🏠 首页
基准测试
📊 所有基准测试 🦖 恐龙 v1 🦖 恐龙 v2 ✅ 待办事项应用 🎨 创意自由页面 🎯 FSACB - 终极展示 🌍 翻译基准测试
模型
🏆 前 10 名模型 🆓 免费模型 📋 所有模型 ⚙️ 🛠️ 千行代码模式
资源
💬 💬 提示库 📖 📖 AI 词汇表 🔗 🔗 有用链接

AI 词汇表

人工智能完整词典

200
个类别
2,608
个子类别
30,011
个术语
📖
个术语

Apprentissage par Renforcement Model-Based

Approche d'apprentissage par renforcement où l'agent construit un modèle interne de l'environnement pour simuler des transitions et générer des expériences sans interaction réelle.

📖
个术语

Dyna-Q

Algorithme hybride d'apprentissage par renforcement combinant apprentissage direct depuis l'expérience réelle et planification utilisant un modèle appris pour générer des expériences simulées supplémentaires.

📖
个术语

Apprentissage direct

Processus de mise à jour des valeurs d'action ou de politique basé uniquement sur les expériences réelles accumulées lors de l'interaction avec l'environnement.

📖
个术语

Planification dans l'apprentissage par renforcement

Utilisation d'un modèle environnemental pour générer des expériences synthétiques et améliorer la politique sans interactions supplémentaires avec l'environnement réel.

📖
个术语

Modèle de transition

Composant du modèle d'environnement prédictionnel qui estime la distribution de probabilité des états suivants étant donné un état actuel et une action.

📖
个术语

Modèle de récompense

Fonction apprise qui prédit la récompense attendue pour chaque paire état-action dans un environnement d'apprentissage par renforcement.

📖
个术语

Expériences simulées

Échantillons générés artificiellement par le modèle interne de l'environnement pour accélérer l'apprentissage sans nécessiter d'interactions réelles supplémentaires.

📖
个术语

Mise à jour de la valeur

Processus itératif d'ajustement des estimations de valeur d'action Q(s,a) basé sur les récompenses observées et les valeurs des états futurs selon l'équation de Bellman.

📖
个术语

经验记忆

存储三元组(状态、动作、奖励、下一状态)的数据结构,允许在规划阶段进行重复更新。

📖
个术语

Dyna-Q+

Dyna-Q的扩展,集成了基于状态-动作对最后访问时间的探索机制,以检测和适应环境变化。

📖
个术语

优先级扫描

Dyna-Q的变体,根据更新对值的潜在影响进行优先级排序,优化规划阶段的计算效率。

📖
个术语

规划效应

当每个真实步骤的规划步骤数量增加时观察到的学习加速,直到达到收益递减点。

📖
个术语

算法收敛

确保Dyna-Q的值估计在模型精确和无限访问的某些条件下收敛到最优值的属性。

📖
个术语

模型误差

环境实际行为与学习模型预测之间的差异,如果不受控制可能会降低性能。

📖
个术语

计算复杂性

Dyna-Q的计算成本,线性依赖于经验记忆的大小和每次迭代的规划更新次数。

📖
个术语

模型泛化

将模型预测外推到未观察到的状态-动作对的能力,通常通过神经网络或其他函数逼近器实现。

📖
个术语

状态空间采样

在规划阶段从记忆中选择模拟经验的策略,影响Dyna-Q的学习效率。

📖
个术语

规划功能

对存储的经验进行重复更新以优化价值估计的算法组件,无需新的环境交互。

📖
个术语

自适应学习速度

在Dyna-Q中动态调整学习率的机制,以考虑真实和模拟经验的方差来优化收敛性。

🔍

未找到结果