Apprentissage par Dyna-Q

📖

termes

Apprentissage par Renforcement Model-Based

Approche d'apprentissage par renforcement où l'agent construit un modèle interne de l'environnement pour simuler des transitions et générer des expériences sans interaction réelle.

📖

termes

Dyna-Q

Algorithme hybride d'apprentissage par renforcement combinant apprentissage direct depuis l'expérience réelle et planification utilisant un modèle appris pour générer des expériences simulées supplémentaires.

📖

termes

Apprentissage direct

Processus de mise à jour des valeurs d'action ou de politique basé uniquement sur les expériences réelles accumulées lors de l'interaction avec l'environnement.

📖

termes

Planification dans l'apprentissage par renforcement

Utilisation d'un modèle environnemental pour générer des expériences synthétiques et améliorer la politique sans interactions supplémentaires avec l'environnement réel.

📖

termes

Modèle de transition

Composant du modèle d'environnement prédictionnel qui estime la distribution de probabilité des états suivants étant donné un état actuel et une action.

📖

termes

Modèle de récompense

Fonction apprise qui prédit la récompense attendue pour chaque paire état-action dans un environnement d'apprentissage par renforcement.

📖

termes

Expériences simulées

Échantillons générés artificiellement par le modèle interne de l'environnement pour accélérer l'apprentissage sans nécessiter d'interactions réelles supplémentaires.

📖

termes

Mise à jour de la valeur

Processus itératif d'ajustement des estimations de valeur d'action Q(s,a) basé sur les récompenses observées et les valeurs des états futurs selon l'équation de Bellman.

📖

termes

Mémoire d'expériences

Structure de données stockant les triplets (état, action, récompense, état_suivant) pour permettre les mises à jour répétées durant la phase de planification.

📖

termes

Dyna-Q+

Extension de Dyna-Q intégrant un mécanisme d'exploration basé sur le temps écoulé depuis la dernière visite d'état-action pour détecter et s'adapter aux changements environnementaux.

📖

termes

Priorité de balayage

Variante de Dyna-Q où les mises à jour sont priorisées selon leur impact potentiel sur les valeurs, optimisant l'efficacité computationnelle de la phase de planification.

📖

termes

Effet de planification

Accélération de l'apprentissage observée lorsque le nombre d'étapes de planification par étape réelle augmente, jusqu'à un point de rendement décroissant.

📖

termes

Convergence de l'algorithme

Propriété garantissant que les estimations de valeur de Dyna-Q convergent vers les valeurs optimales sous certaines conditions de modèle exact et de visite infinie.

📖

termes

Erreur de modèle

Disparance entre le comportement réel de l'environnement et les prédictions du modèle appris, pouvant dégrader les performances si non maîtrisée.

📖

termes

Complexité computationnelle

Coût computationnel de Dyna-Q dépendant linéairement de la taille de la mémoire d'expériences et du nombre de mises à jour de planification par itération.

📖

termes

Généralisation de modèle

Capacité d'extrapoler les prédictions du modèle à des états-actions non observés, souvent réalisée par des réseaux de neurones ou d'autres approximateurs de fonction.

📖

termes

Échantillonnage de l'espace d'états

Stratégie de sélection des expériences simulées depuis la mémoire durant la phase de planification, influençant l'efficacité d'apprentissage de Dyna-Q.

📖

termes

Fonction de planification

Composant algorithmique effectuant des mises à jour répétées sur les expériences stockées pour raffiner les estimations de valeur sans nouvelle interaction environnementale.

📖

termes

Vitesse d'apprentissage adaptative

Mécanisme d'ajustement dynamique du taux d'apprentissage dans Dyna-Q pour optimiser la convergence compte tenu de la variance des expériences réelles et simulées.

Glossaire IA

Apprentissage par Renforcement Model-Based

Dyna-Q

Apprentissage direct

Planification dans l'apprentissage par renforcement

Modèle de transition

Modèle de récompense

Expériences simulées

Mise à jour de la valeur

Mémoire d'expériences

Dyna-Q+

Priorité de balayage

Effet de planification

Convergence de l'algorithme

Erreur de modèle

Complexité computationnelle

Généralisation de modèle

Échantillonnage de l'espace d'états

Fonction de planification

Vitesse d'apprentissage adaptative

Aucun résultat trouvé