Glossaire IA
Le dictionnaire complet de l'Intelligence Artificielle
Apprentissage par Renforcement Model-Based
Approche d'apprentissage par renforcement où l'agent construit un modèle interne de l'environnement pour simuler des transitions et générer des expériences sans interaction réelle.
Dyna-Q
Algorithme hybride d'apprentissage par renforcement combinant apprentissage direct depuis l'expérience réelle et planification utilisant un modèle appris pour générer des expériences simulées supplémentaires.
Apprentissage direct
Processus de mise à jour des valeurs d'action ou de politique basé uniquement sur les expériences réelles accumulées lors de l'interaction avec l'environnement.
Planification dans l'apprentissage par renforcement
Utilisation d'un modèle environnemental pour générer des expériences synthétiques et améliorer la politique sans interactions supplémentaires avec l'environnement réel.
Modèle de transition
Composant du modèle d'environnement prédictionnel qui estime la distribution de probabilité des états suivants étant donné un état actuel et une action.
Modèle de récompense
Fonction apprise qui prédit la récompense attendue pour chaque paire état-action dans un environnement d'apprentissage par renforcement.
Expériences simulées
Échantillons générés artificiellement par le modèle interne de l'environnement pour accélérer l'apprentissage sans nécessiter d'interactions réelles supplémentaires.
Mise à jour de la valeur
Processus itératif d'ajustement des estimations de valeur d'action Q(s,a) basé sur les récompenses observées et les valeurs des états futurs selon l'équation de Bellman.
Mémoire d'expériences
Structure de données stockant les triplets (état, action, récompense, état_suivant) pour permettre les mises à jour répétées durant la phase de planification.
Dyna-Q+
Extension de Dyna-Q intégrant un mécanisme d'exploration basé sur le temps écoulé depuis la dernière visite d'état-action pour détecter et s'adapter aux changements environnementaux.
Priorité de balayage
Variante de Dyna-Q où les mises à jour sont priorisées selon leur impact potentiel sur les valeurs, optimisant l'efficacité computationnelle de la phase de planification.
Effet de planification
Accélération de l'apprentissage observée lorsque le nombre d'étapes de planification par étape réelle augmente, jusqu'à un point de rendement décroissant.
Convergence de l'algorithme
Propriété garantissant que les estimations de valeur de Dyna-Q convergent vers les valeurs optimales sous certaines conditions de modèle exact et de visite infinie.
Erreur de modèle
Disparance entre le comportement réel de l'environnement et les prédictions du modèle appris, pouvant dégrader les performances si non maîtrisée.
Complexité computationnelle
Coût computationnel de Dyna-Q dépendant linéairement de la taille de la mémoire d'expériences et du nombre de mises à jour de planification par itération.
Généralisation de modèle
Capacité d'extrapoler les prédictions du modèle à des états-actions non observés, souvent réalisée par des réseaux de neurones ou d'autres approximateurs de fonction.
Échantillonnage de l'espace d'états
Stratégie de sélection des expériences simulées depuis la mémoire durant la phase de planification, influençant l'efficacité d'apprentissage de Dyna-Q.
Fonction de planification
Composant algorithmique effectuant des mises à jour répétées sur les expériences stockées pour raffiner les estimations de valeur sans nouvelle interaction environnementale.
Vitesse d'apprentissage adaptative
Mécanisme d'ajustement dynamique du taux d'apprentissage dans Dyna-Q pour optimiser la convergence compte tenu de la variance des expériences réelles et simulées.