Glosario IA
El diccionario completo de la Inteligencia Artificial
Recolección de Datos On-Policy
Proceso de recolección de ejemplos donde el agente sigue su política actual, permitiendo identificar las divergencias con el comportamiento del experto para un reajuste específico.
Deriva de Distribución (Distributional Drift)
Fenómeno donde la política del agente se aleja de la distribución de los estados visitados por el experto, haciendo que los datos iniciales de imitación sean menos relevantes para el aprendizaje.
Agregación Iterativa de Datos
Metodología que consiste en fusionar sucesivamente los nuevos datos de experto recolectados con el conjunto de datos existente para enriquecer el aprendizaje de la política.
Mezcla de Datos (Data Mixing)
Estrategia de combinación de los datos de imitación iniciales y los datos recolectados mediante DAgger para crear un conjunto de entrenamiento más robusto y representativo.
Bucle de Retroalimentación del Experto
Ciclo interactivo donde el experto proporciona acciones correctivas sobre los estados visitados por el agente, alimentando directamente la mejora de la política en cada iteración.
Estabilidad de la Política
Medida de la coherencia del comportamiento del agente ante ligeras variaciones en los datos de entrenamiento, un objetivo clave del algoritmo DAgger.
Error de Compacidad (Compaction Error)
Sesgo introducido cuando el conjunto de datos agregado no captura adecuadamente la diversidad de los estados visitados por la política en proceso de aprendizaje.
Horizonte de Recolección
Número de pasos o episodios durante los cuales el agente ejecuta su política actual antes de solicitar nuevamente la intervención del experto para recolectar datos.
Apprentissage par Renforcement Imitatif (IRL)
Paradigme d'apprentissage où un agent apprend une tâche en imitant un expert, souvent combiné avec des techniques de renforcement pour généraliser au-delà des données démontrées.
Biais de Comportement (Behavioral Cloning Bias)
Limitation inhérente de l'imitation statique où l'agent ne peut pas récupérer des erreurs non présentes dans le jeu de données initial, problème que DAgger vise à résoudre.
Politique de Comportement (Behavior Policy)
Stratégie suivie par l'agent lors de la phase de collecte de données, qui est ensuite utilisée pour guider l'expert vers les états les plus critiques à corriger.
Fonction de Perte Surrogate
Fonction objectif utilisée pour entraîner le modèle d'imitation, typiquement une erreur de classification ou de régression entre les actions de l'agent et celles de l'expert.
Généralisation de la Politique
Capacité de la politique apprise à performer de manière fiable sur des états non vus pendant la collecte de données, améliorée par la diversité introduite par DAgger.
Coût de Collecte de Données
Ressource temporelle ou computationnelle requise pour que l'expert fournisse des annotations, un facteur clé dans l'efficacité pratique des algorithmes comme DAgger.
Réduction de la Variance
Effet de l'agrégation de données sur la stabilisation de l'estimation du gradient, conduisant à une convergence plus rapide et plus fiable de la politique.
Espace d'Actions de l'Expert
Ensemble des actions possibles que l'expert peut démontrer, définissant les limites de ce que l'agent peut apprendre à imiter via l'algorithme DAgger.
Trayectoria Corregida
Secuencia de estados y acciones donde la intervención del experto reemplaza la acción del agente, creando un ejemplo de aprendizaje de alta calidad para la política.
Aprendizaje fuera de línea (Offline Learning)
Fase de entrenamiento del modelo sobre el conjunto de datos agregado, sin interacción directa con el entorno, característico del método DAgger.
Convergencia de la Política
Punto donde las iteraciones sucesivas de DAgger ya no mejoran significativamente el rendimiento de la política, indicando que el conjunto de datos es suficientemente completo.