Glossaire IA
Le dictionnaire complet de l'Intelligence Artificielle
Model-Based Deep Reinforcement Learning
Approche d'apprentissage par renforcement où l'agent construit un modèle interne de l'environnement pour simuler et planifier ses actions, réduisant ainsi le besoin d'interactions réelles avec l'environnement.
World Model
Représentation neuronale complète de l'environnement apprenant simultanément la dynamique du système, les états latents et les récompenses pour permettre à l'agent de raisonner dans un espace simulé.
Model Predictive Control (MPC)
Stratégie de contrôle utilisant le modèle appris pour optimiser une séquence d'actions futures sur un horizon temporel limité, en réévaluant continuellement le plan optimal à chaque pas de temps.
Dyna Architecture
Framework intégrant apprentissage par renforcement direct et indirect, où les expériences simulées générées par le modèle complètent les données réelles pour accélérer l'apprentissage.
Imagination-Augmented Agents (I2A)
Architecture d'agent combinant politique standard avec un parcours d'imagination utilisant le modèle environnemental pour anticiper les conséquences futures avant de prendre une décision.
PlaNet
Algorithme apprenant un modèle de dynamique dans un espace latent compact pour résoudre des tâches de contrôle continues entièrement par planification, sans politique explicite.
Dreamer
Agent apprenant un monde dans l'espace des rêves où il s'entraîne sur des trajectoires imaginées pour apprendre des comportements et des valeurs de manière entièrement latente.
MuZero
Algorithme révolutionnaire apprenant simultanément le modèle, la politique et la valeur sans connaissance préalable des règles de l'environnement, combinant MCTS et apprentissage profond.
Latent Space Dynamics
Modélisation de l'évolution temporelle des états dans un espace de représentation compressé où les dynamiques sont plus simples et plus stables que dans l'espace d'observation brut.
Model Uncertainty
Quantification de l'incertitude du modèle environnemental, cruciale pour identifier les zones où le modèle est fiable et celles nécessitant plus d'exploration ou d'interactions réelles.
Model Ensemble
Technique utilisant plusieurs modèles environnementaux indépendants pour estimer l'incertitude épistémique et améliorer la robustesse des prédictions pour la planification.
Planning with Learned Models
Processus de recherche séquentiel utilisant le modèle appris pour évaluer différentes séquences d'actions futures et sélectionner l'optimum selon les prédictions de récompense.
Model-Based Value Expansion (MVE)
Technique utilisant le modèle pour extrapoler les retours au-delà de l'horizon réel, combinant données réelles et simulées pour estimer plus précisément les valeurs à long terme.
Model-Based Policy Optimization (MBPO)
Algorithme hybride utilisant des modèles à courte portée pour générer des données synthétiques tout en maintenant un ensemble de données réelles pour stabiliser l'apprentissage de la politique.
Trajectory Optimization
Optimisation directe des séquences d'états-actions en utilisant le gradient du modèle pour trouver des trajectoires optimales, particulièrement efficace pour les systèmes continus.
Differentiable Physics Engines
Simulateurs physiques implémentés avec des opérations différentiables permettant la propagation des gradients à travers les simulations pour l'apprentissage par renforcement basé sur modèle.
Forward Dynamics Model
Modèle prédictif apprenant la transition d'état s_{t+1} = f(s_t, a_t) pour anticiper les conséquences futures des actions dans l'environnement.
Inverse Dynamics Model
Modèle apprenant à inférer l'action a_t = f^{-1}(s_t, s_{t+1}) ayant conduit d'un état à un autre, utile pour l'apprentissage par imitation et la représentation des actions.
Model-Based Exploration
Stratégie d'exploration utilisant l'incertitude du modèle pour guider l'agent vers les états où le modèle est moins confiant, favorisant l'apprentissage d'une représentation plus complète.