🏠 Accueil
基準測試
📊 Tous les Benchmarks 🦖 Dinosaure v1 🦖 Dinosaure v2 ✅ To-Do List Apps 🎨 Pages Libres 🎯 FSACB - Showcase 🌍 Traduction
Modèles
🏆 Top 10 Modèles 🆓 Modèles Gratuits 📋 Tous les Modèles ⚙️ Modes Kilo Code
Ressources
💬 Prompts IA 📖 人工智能詞彙表 🔗 Liens Utiles

AI 詞彙表

人工智能完整詞典

200
類別
2,608
子類別
30,011
術語
📖
術語

Apprentissage par Renforcement Model-Based

Approche d'apprentissage par renforcement où l'agent construit un modèle interne de l'environnement pour simuler des transitions et générer des expériences sans interaction réelle.

📖
術語

Dyna-Q

Algorithme hybride d'apprentissage par renforcement combinant apprentissage direct depuis l'expérience réelle et planification utilisant un modèle appris pour générer des expériences simulées supplémentaires.

📖
術語

Apprentissage direct

Processus de mise à jour des valeurs d'action ou de politique basé uniquement sur les expériences réelles accumulées lors de l'interaction avec l'environnement.

📖
術語

Planification dans l'apprentissage par renforcement

Utilisation d'un modèle environnemental pour générer des expériences synthétiques et améliorer la politique sans interactions supplémentaires avec l'environnement réel.

📖
術語

Modèle de transition

Composant du modèle d'environnement prédictionnel qui estime la distribution de probabilité des états suivants étant donné un état actuel et une action.

📖
術語

Modèle de récompense

Fonction apprise qui prédit la récompense attendue pour chaque paire état-action dans un environnement d'apprentissage par renforcement.

📖
術語

Expériences simulées

Échantillons générés artificiellement par le modèle interne de l'environnement pour accélérer l'apprentissage sans nécessiter d'interactions réelles supplémentaires.

📖
術語

Mise à jour de la valeur

Processus itératif d'ajustement des estimations de valeur d'action Q(s,a) basé sur les récompenses observées et les valeurs des états futurs selon l'équation de Bellman.

📖
術語

经验记忆

存储三元组(状态、动作、奖励、下一状态)的数据结构,允许在规划阶段进行重复更新。

📖
術語

Dyna-Q+

Dyna-Q的扩展,集成了基于状态-动作对最后访问时间的探索机制,以检测和适应环境变化。

📖
術語

优先级扫描

Dyna-Q的变体,根据更新对值的潜在影响进行优先级排序,优化规划阶段的计算效率。

📖
術語

规划效应

当每个真实步骤的规划步骤数量增加时观察到的学习加速,直到达到收益递减点。

📖
術語

算法收敛

确保Dyna-Q的值估计在模型精确和无限访问的某些条件下收敛到最优值的属性。

📖
術語

模型误差

环境实际行为与学习模型预测之间的差异,如果不受控制可能会降低性能。

📖
術語

计算复杂性

Dyna-Q的计算成本,线性依赖于经验记忆的大小和每次迭代的规划更新次数。

📖
術語

模型泛化

将模型预测外推到未观察到的状态-动作对的能力,通常通过神经网络或其他函数逼近器实现。

📖
術語

状态空间采样

在规划阶段从记忆中选择模拟经验的策略,影响Dyna-Q的学习效率。

📖
術語

规划功能

对存储的经验进行重复更新以优化价值估计的算法组件,无需新的环境交互。

📖
術語

自适应学习速度

在Dyna-Q中动态调整学习率的机制,以考虑真实和模拟经验的方差来优化收敛性。

🔍

搵唔到結果