Agregación de Datos DAgger

📖

términos

DAgger (Agregación de Conjuntos de Datos)

Algoritmo de aprendizaje por imitación que recopila datos de manera iterativa consultando a un experto sobre los estados visitados por la política actual. Este enfoque reduce la brecha entre la distribución de entrenamiento y la distribución de despliegue.

📖

términos

Agregación de datos

Proceso de recopilación y combinación de múltiples conjuntos de datos provenientes de diferentes fuentes o iteraciones de aprendizaje. En DAgger, esto permite mejorar progresivamente la robustez de la política aprendida.

📖

términos

Recopilación iterativa

Metodología de recopilación de datos realizada en varios ciclos sucesivos, donde cada ciclo utiliza la información de los ciclos anteriores. Este enfoque permite refinar continuamente la política y explorar nuevos estados.

📖

términos

Política de comportamiento

Estrategia o distribución de probabilidades sobre las acciones que el agente sigue durante la recopilación de datos en DAgger. Evoluciona a lo largo de las iteraciones para aproximarse a la política óptima.

📖

términos

Distribución de estados

Conjunto probabilístico de estados que el agente probablemente visitará durante su ejecución. DAgger busca alinear esta distribución con la encontrada en el despliegue real.

📖

términos

Sesgo de distribución

Diferencia entre la distribución de los datos de entrenamiento y la encontrada durante el despliegue en producción. DAgger reduce este sesgo recopilando datos sobre los estados realmente visitados por la política actual.

📖

términos

Corrección de errores

Proceso mediante el cual un experto proporciona las acciones correctas cuando la política actual del agente comete errores. Estas correcciones sirven como nuevos datos de entrenamiento para mejorar la política.

📖

términos

Consulta al experto

Mecanismo de solicitud de acciones óptimas a un experto humano o sistema para estados específicos visitados por el agente. Estas consultas son esenciales para generar datos de entrenamiento de alta calidad.

📖

términos

Estado visitado

Configuración o situación específica del entorno que el agente alcanza durante la ejecución de su política actual. Estos estados se convierten en puntos de interrogación para el experto en DAgger.

📖

términos

Política actual

Versión actual de la estrategia de decisión del agente que evoluciona en cada iteración del algoritmo DAgger. Se utiliza para explorar el entorno e identificar los estados que requieren correcciones expertas.

📖

términos

Agregación adaptativa

Variante de DAgger que ajusta dinámicamente la proporción de acciones expertas versus acciones de la política actual. Esta adaptación permite equilibrar exploración y explotación durante el aprendizaje.

📖

términos

Bucle de retroalimentación

Ciclo continuo donde el rendimiento de la política actual genera nuevos estados, que a su vez requieren correcciones expertas. Este bucle iterativo es el mecanismo fundamental de mejora en DAgger.

📖

términos

Corrección en línea

Proceso de intervención experta que ocurre durante la ejecución en tiempo real de la política del agente. Estas correcciones inmediatas permiten evitar la propagación de errores en las trayectorias.

📖

términos

Distribución de trayectorias

Conjunto de secuencias de estados y acciones que el agente genera siguiendo su política actual. DAgger busca alinear esta distribución con la producida por la política experta óptima.

📖

términos

Política objetivo

Política óptima que el agente busca imitar, generalmente representada por las demostraciones del experto. El objetivo de DAgger es hacer converger la política aprendida hacia esta política objetivo.

📖

términos

Agregación progresiva

Estrategia de acumulación de datos donde cada nueva iteración añade información complementaria a los datos existentes. Este enfoque garantiza una cobertura creciente del espacio de estados relevante.

📖

términos

Error de compacidad

Diferencia de rendimiento entre la política aprendida y la política experta debido a limitaciones de representación. DAgger minimiza este error recopilando datos sobre la distribución real de estados.

Glosario IA

DAgger (Agregación de Conjuntos de Datos)

Agregación de datos

Recopilación iterativa

Política de comportamiento

Distribución de estados

Sesgo de distribución

Corrección de errores

Consulta al experto

Estado visitado

Política actual

Agregación adaptativa

Bucle de retroalimentación

Corrección en línea

Distribución de trayectorias

Política objetivo

Agregación progresiva

Error de compacidad

No se encontraron resultados