Apprentissage par Renforcement Hiérarchique Basé sur Modèles

📖

용어

Apprentissage par Renforcement Hiérarchique Basé sur Modèles (HRL-MB)

Paradigme d'apprentissage par renforcement qui intègre une structure hiérarchique de politiques et un modèle de l'environnement pour accélérer l'apprentissage et améliorer le transfert de compétences.

📖

용어

Décomposition Hiérarchique des Tâches

Méthode consistant à diviser un problème complexe en sous-tâches plus simples organisées en une hiérarchie, où chaque niveau gère des actions à une échelle temporelle différente.

📖

용어

Modèle de Transition à Échelles Multiples

Modèle environnemental qui prédit les transitions d'état à différents niveaux d'abstraction temporelle, correspondant aux divers niveaux de la hiérarchie de contrôle.

📖

용어

Fonction de Termination d'Option

Fonction probabiliste qui détermine quand une option (sous-politique) doit se terminer et céder le contrôle au niveau hiérarchique supérieur.

📖

용어

Politique de Haut-Niveau (Meta-contrôleur)

Politique située au sommet de la hiérarchie qui sélectionne et active les options (sous-politiques) appropriées en fonction de l'état courant et des objectifs à long terme.

📖

용어

Modèle de Prédiction d'Option

Composant qui prédit les conséquences (états terminaux, récompenses) de l'exécution d'une option à partir d'un état donné, sans simuler chaque action primitive.

📖

용어

Graphe de Tâches Hiérarchique (HTN)

Formalisme de représentation structurant les tâches en réseau hiérarchique où les nœuds sont des tâches et les arcs représentent les relations de décomposition.

📖

용어

Apprentissage par Renforcement Basé sur Modèles avec Options

Approche combinant l'utilisation d'un modèle environnemental pour la planification et une structure d'options pour l'abstraction temporelle des actions.

📖

용어

Multi-Resolution World Model

Environmental model representing the world at different spatial and temporal granularities to adapt to the needs of each hierarchical level.

📖

용어

Option Initiation Policy

Set of states from which a particular option can be activated and begin its execution, defining the validity domain of the sub-policy.

📖

용어

Hierarchical Monte Carlo Planning (HMCP)

Tree search algorithm that performs simulations using options as basic actions, allowing more efficient exploration of the policy space.

📖

용어

Temporal Decoupling of Decisions

Principle according to which decisions are made at different frequencies depending on their hierarchical level, with higher levels intervening less frequently.

📖

용어

Hierarchical Reward Model

Reward structure where each hierarchical level has its own reward function, potentially aligned with specific sub-objectives at that level.

📖

용어

Terminal Option Leaves

Options located at the base of the hierarchy that directly execute primitive actions on the environment without delegation to sub-options.

📖

용어

Option-based Model Learning

Learning process where the environmental model is trained to predict the effects of options rather than primitive actions, requiring less data.

📖

용어

Abstract Option Space

Set of all options available at a given hierarchical level, constituting the action space for the upper-level policy.

📖

용어

Hierarchical Credit Backpropagation

Credit attribution mechanism that distributes rewards and responsibilities across different levels of the policy hierarchy.

AI 용어집