Glosario IA
El diccionario completo de la Inteligencia Artificial
Model-Based Deep Reinforcement Learning
Enfoque de aprendizaje por refuerzo donde el agente construye un modelo interno del entorno para simular y planificar sus acciones, reduciendo así la necesidad de interacciones reales con el entorno.
World Model
Representación neuronal completa del entorno que aprende simultáneamente la dinámica del sistema, los estados latentes y las recompensas para permitir al agente razonar en un espacio simulado.
Model Predictive Control (MPC)
Estrategia de control que utiliza el modelo aprendido para optimizar una secuencia de acciones futuras en un horizonte temporal limitado, reevaluando continuamente el plan óptimo en cada paso de tiempo.
Dyna Architecture
Framework que integra el aprendizaje por refuerzo directo e indirecto, donde las experiencias simuladas generadas por el modelo complementan los datos reales para acelerar el aprendizaje.
Imagination-Augmented Agents (I2A)
Arquitectura de agente que combina una política estándar con un recorrido de imaginación utilizando el modelo del entorno para anticipar las consecuencias futuras antes de tomar una decisión.
PlaNet
Algoritmo que aprende un modelo de dinámica en un espacio latente compacto para resolver tareas de control continuo completamente mediante planificación, sin política explícita.
Dreamer
Agente que aprende un mundo en el espacio de los sueños donde se entrena en trayectorias imaginadas para aprender comportamientos y valores de forma completamente latente.
MuZero
Algoritmo revolucionario que aprende simultáneamente el modelo, la política y el valor sin conocimiento previo de las reglas del entorno, combinando MCTS y aprendizaje profundo.
Dinámica del Espacio Latente
Modelado de la evolución temporal de los estados en un espacio de representación comprimido donde las dinámicas son más simples y estables que en el espacio de observación bruto.
Incertidumbre del Modelo
Cuantificación de la incertidumbre del modelo ambiental, crucial para identificar las zonas donde el modelo es fiable y aquellas que requieren más exploración o interacciones reales.
Conjunto de Modelos
Técnica que utiliza múltiples modelos ambientales independientes para estimar la incertidumbre epistémica y mejorar la robustez de las predicciones para la planificación.
Planificación con Modelos Aprendidos
Proceso de búsqueda secuencial que utiliza el modelo aprendido para evaluar diferentes secuencias de acciones futuras y seleccionar el óptimo según las predicciones de recompensa.
Expansión de Valor Basada en Modelo (MVE)
Técnica que utiliza el modelo para extrapolar los retornos más allá del horizonte real, combinando datos reales y simulados para estimar con mayor precisión los valores a largo plazo.
Optimización de Políticas Basada en Modelo (MBPO)
Algoritmo híbrido que utiliza modelos de corto alcance para generar datos sintéticos mientras mantiene un conjunto de datos reales para estabilizar el aprendizaje de la política.
Optimización de Trayectoria
Optimización directa de secuencias de estados-acciones utilizando el gradiente del modelo para encontrar trayectorias óptimas, particularmente efectivo para sistemas continuos.
Motores Físicos Diferenciables
Simuladores físicos implementados con operaciones diferenciables que permiten la propagación de gradientes a través de las simulaciones para el aprendizaje por refuerzo basado en modelo.
Modelo de Dinámica Directa
Modelo predictivo que aprende la transición de estado s_{t+1} = f(s_t, a_t) para anticipar las consecuencias futuras de las acciones en el entorno.
Modelo de Dinámica Inversa
Modelo que aprende a inferir la acción a_t = f^{-1}(s_t, s_{t+1}) que condujo de un estado a otro, útil para el aprendizaje por imitación y la representación de acciones.
Exploración Basada en Modelo
Estrategia de exploración que utiliza la incertidumbre del modelo para guiar al agente hacia estados donde el modelo está menos seguro, favoreciendo el aprendizaje de una representación más completa.