AI 용어집
인공지능 완전 사전
Apprentissage par Renforcement Hiérarchique Basé sur Modèles (HRL-MB)
Paradigme d'apprentissage par renforcement qui intègre une structure hiérarchique de politiques et un modèle de l'environnement pour accélérer l'apprentissage et améliorer le transfert de compétences.
Décomposition Hiérarchique des Tâches
Méthode consistant à diviser un problème complexe en sous-tâches plus simples organisées en une hiérarchie, où chaque niveau gère des actions à une échelle temporelle différente.
Modèle de Transition à Échelles Multiples
Modèle environnemental qui prédit les transitions d'état à différents niveaux d'abstraction temporelle, correspondant aux divers niveaux de la hiérarchie de contrôle.
Fonction de Termination d'Option
Fonction probabiliste qui détermine quand une option (sous-politique) doit se terminer et céder le contrôle au niveau hiérarchique supérieur.
Politique de Haut-Niveau (Meta-contrôleur)
Politique située au sommet de la hiérarchie qui sélectionne et active les options (sous-politiques) appropriées en fonction de l'état courant et des objectifs à long terme.
Modèle de Prédiction d'Option
Composant qui prédit les conséquences (états terminaux, récompenses) de l'exécution d'une option à partir d'un état donné, sans simuler chaque action primitive.
Graphe de Tâches Hiérarchique (HTN)
Formalisme de représentation structurant les tâches en réseau hiérarchique où les nœuds sont des tâches et les arcs représentent les relations de décomposition.
Apprentissage par Renforcement Basé sur Modèles avec Options
Approche combinant l'utilisation d'un modèle environnemental pour la planification et une structure d'options pour l'abstraction temporelle des actions.
Multi-Resolution World Model
Environmental model representing the world at different spatial and temporal granularities to adapt to the needs of each hierarchical level.
Option Initiation Policy
Set of states from which a particular option can be activated and begin its execution, defining the validity domain of the sub-policy.
Hierarchical Monte Carlo Planning (HMCP)
Tree search algorithm that performs simulations using options as basic actions, allowing more efficient exploration of the policy space.
Temporal Decoupling of Decisions
Principle according to which decisions are made at different frequencies depending on their hierarchical level, with higher levels intervening less frequently.
Hierarchical Reward Model
Reward structure where each hierarchical level has its own reward function, potentially aligned with specific sub-objectives at that level.
Terminal Option Leaves
Options located at the base of the hierarchy that directly execute primitive actions on the environment without delegation to sub-options.
Option-based Model Learning
Learning process where the environmental model is trained to predict the effects of options rather than primitive actions, requiring less data.
Abstract Option Space
Set of all options available at a given hierarchical level, constituting the action space for the upper-level policy.
Hierarchical Credit Backpropagation
Credit attribution mechanism that distributes rewards and responsibilities across different levels of the policy hierarchy.