Agregación de Conjunto de Datos (DAgger)

📖

términos

Recolección de Datos On-Policy

Proceso de recolección de ejemplos donde el agente sigue su política actual, permitiendo identificar las divergencias con el comportamiento del experto para un reajuste específico.

📖

términos

Deriva de Distribución (Distributional Drift)

Fenómeno donde la política del agente se aleja de la distribución de los estados visitados por el experto, haciendo que los datos iniciales de imitación sean menos relevantes para el aprendizaje.

📖

términos

Agregación Iterativa de Datos

Metodología que consiste en fusionar sucesivamente los nuevos datos de experto recolectados con el conjunto de datos existente para enriquecer el aprendizaje de la política.

📖

términos

Mezcla de Datos (Data Mixing)

Estrategia de combinación de los datos de imitación iniciales y los datos recolectados mediante DAgger para crear un conjunto de entrenamiento más robusto y representativo.

📖

términos

Bucle de Retroalimentación del Experto

Ciclo interactivo donde el experto proporciona acciones correctivas sobre los estados visitados por el agente, alimentando directamente la mejora de la política en cada iteración.

📖

términos

Estabilidad de la Política

Medida de la coherencia del comportamiento del agente ante ligeras variaciones en los datos de entrenamiento, un objetivo clave del algoritmo DAgger.

📖

términos

Error de Compacidad (Compaction Error)

Sesgo introducido cuando el conjunto de datos agregado no captura adecuadamente la diversidad de los estados visitados por la política en proceso de aprendizaje.

📖

términos

Horizonte de Recolección

Número de pasos o episodios durante los cuales el agente ejecuta su política actual antes de solicitar nuevamente la intervención del experto para recolectar datos.

📖

términos

Apprentissage par Renforcement Imitatif (IRL)

Paradigme d'apprentissage où un agent apprend une tâche en imitant un expert, souvent combiné avec des techniques de renforcement pour généraliser au-delà des données démontrées.

📖

términos

Biais de Comportement (Behavioral Cloning Bias)

Limitation inhérente de l'imitation statique où l'agent ne peut pas récupérer des erreurs non présentes dans le jeu de données initial, problème que DAgger vise à résoudre.

📖

términos

Politique de Comportement (Behavior Policy)

Stratégie suivie par l'agent lors de la phase de collecte de données, qui est ensuite utilisée pour guider l'expert vers les états les plus critiques à corriger.

📖

términos

Fonction de Perte Surrogate

Fonction objectif utilisée pour entraîner le modèle d'imitation, typiquement une erreur de classification ou de régression entre les actions de l'agent et celles de l'expert.

📖

términos

Généralisation de la Politique

Capacité de la politique apprise à performer de manière fiable sur des états non vus pendant la collecte de données, améliorée par la diversité introduite par DAgger.

📖

términos

Coût de Collecte de Données

Ressource temporelle ou computationnelle requise pour que l'expert fournisse des annotations, un facteur clé dans l'efficacité pratique des algorithmes comme DAgger.

📖

términos

Réduction de la Variance

Effet de l'agrégation de données sur la stabilisation de l'estimation du gradient, conduisant à une convergence plus rapide et plus fiable de la politique.

📖

términos

Espace d'Actions de l'Expert

Ensemble des actions possibles que l'expert peut démontrer, définissant les limites de ce que l'agent peut apprendre à imiter via l'algorithme DAgger.

📖

términos

Trayectoria Corregida

Secuencia de estados y acciones donde la intervención del experto reemplaza la acción del agente, creando un ejemplo de aprendizaje de alta calidad para la política.

📖

términos

Aprendizaje fuera de línea (Offline Learning)

Fase de entrenamiento del modelo sobre el conjunto de datos agregado, sin interacción directa con el entorno, característico del método DAgger.

📖

términos

Convergencia de la Política

Punto donde las iteraciones sucesivas de DAgger ya no mejoran significativamente el rendimiento de la política, indicando que el conjunto de datos es suficientemente completo.

Glosario IA

Recolección de Datos On-Policy

Deriva de Distribución (Distributional Drift)

Agregación Iterativa de Datos

Mezcla de Datos (Data Mixing)

Bucle de Retroalimentación del Experto

Estabilidad de la Política

Error de Compacidad (Compaction Error)

Horizonte de Recolección

Apprentissage par Renforcement Imitatif (IRL)

Biais de Comportement (Behavioral Cloning Bias)

Politique de Comportement (Behavior Policy)

Fonction de Perte Surrogate

Généralisation de la Politique

Coût de Collecte de Données

Réduction de la Variance

Espace d'Actions de l'Expert

Trayectoria Corregida

Aprendizaje fuera de línea (Offline Learning)

Convergencia de la Política

No se encontraron resultados