Glosario IA
El diccionario completo de la Inteligencia Artificial
DAgger (Agregación de Conjuntos de Datos)
Algoritmo de aprendizaje por imitación que recopila datos de manera iterativa consultando a un experto sobre los estados visitados por la política actual. Este enfoque reduce la brecha entre la distribución de entrenamiento y la distribución de despliegue.
Agregación de datos
Proceso de recopilación y combinación de múltiples conjuntos de datos provenientes de diferentes fuentes o iteraciones de aprendizaje. En DAgger, esto permite mejorar progresivamente la robustez de la política aprendida.
Recopilación iterativa
Metodología de recopilación de datos realizada en varios ciclos sucesivos, donde cada ciclo utiliza la información de los ciclos anteriores. Este enfoque permite refinar continuamente la política y explorar nuevos estados.
Política de comportamiento
Estrategia o distribución de probabilidades sobre las acciones que el agente sigue durante la recopilación de datos en DAgger. Evoluciona a lo largo de las iteraciones para aproximarse a la política óptima.
Distribución de estados
Conjunto probabilístico de estados que el agente probablemente visitará durante su ejecución. DAgger busca alinear esta distribución con la encontrada en el despliegue real.
Sesgo de distribución
Diferencia entre la distribución de los datos de entrenamiento y la encontrada durante el despliegue en producción. DAgger reduce este sesgo recopilando datos sobre los estados realmente visitados por la política actual.
Corrección de errores
Proceso mediante el cual un experto proporciona las acciones correctas cuando la política actual del agente comete errores. Estas correcciones sirven como nuevos datos de entrenamiento para mejorar la política.
Consulta al experto
Mecanismo de solicitud de acciones óptimas a un experto humano o sistema para estados específicos visitados por el agente. Estas consultas son esenciales para generar datos de entrenamiento de alta calidad.
Estado visitado
Configuración o situación específica del entorno que el agente alcanza durante la ejecución de su política actual. Estos estados se convierten en puntos de interrogación para el experto en DAgger.
Política actual
Versión actual de la estrategia de decisión del agente que evoluciona en cada iteración del algoritmo DAgger. Se utiliza para explorar el entorno e identificar los estados que requieren correcciones expertas.
Agregación adaptativa
Variante de DAgger que ajusta dinámicamente la proporción de acciones expertas versus acciones de la política actual. Esta adaptación permite equilibrar exploración y explotación durante el aprendizaje.
Bucle de retroalimentación
Ciclo continuo donde el rendimiento de la política actual genera nuevos estados, que a su vez requieren correcciones expertas. Este bucle iterativo es el mecanismo fundamental de mejora en DAgger.
Corrección en línea
Proceso de intervención experta que ocurre durante la ejecución en tiempo real de la política del agente. Estas correcciones inmediatas permiten evitar la propagación de errores en las trayectorias.
Distribución de trayectorias
Conjunto de secuencias de estados y acciones que el agente genera siguiendo su política actual. DAgger busca alinear esta distribución con la producida por la política experta óptima.
Política objetivo
Política óptima que el agente busca imitar, generalmente representada por las demostraciones del experto. El objetivo de DAgger es hacer converger la política aprendida hacia esta política objetivo.
Agregación progresiva
Estrategia de acumulación de datos donde cada nueva iteración añade información complementaria a los datos existentes. Este enfoque garantiza una cobertura creciente del espacio de estados relevante.
Error de compacidad
Diferencia de rendimiento entre la política aprendida y la política experta debido a limitaciones de representación. DAgger minimiza este error recopilando datos sobre la distribución real de estados.