Deep RL Basado en Modelo

📖

términos

Model-Based Deep Reinforcement Learning

Enfoque de aprendizaje por refuerzo donde el agente construye un modelo interno del entorno para simular y planificar sus acciones, reduciendo así la necesidad de interacciones reales con el entorno.

📖

términos

World Model

Representación neuronal completa del entorno que aprende simultáneamente la dinámica del sistema, los estados latentes y las recompensas para permitir al agente razonar en un espacio simulado.

📖

términos

Model Predictive Control (MPC)

Estrategia de control que utiliza el modelo aprendido para optimizar una secuencia de acciones futuras en un horizonte temporal limitado, reevaluando continuamente el plan óptimo en cada paso de tiempo.

📖

términos

Dyna Architecture

Framework que integra el aprendizaje por refuerzo directo e indirecto, donde las experiencias simuladas generadas por el modelo complementan los datos reales para acelerar el aprendizaje.

📖

términos

Imagination-Augmented Agents (I2A)

Arquitectura de agente que combina una política estándar con un recorrido de imaginación utilizando el modelo del entorno para anticipar las consecuencias futuras antes de tomar una decisión.

📖

términos

PlaNet

Algoritmo que aprende un modelo de dinámica en un espacio latente compacto para resolver tareas de control continuo completamente mediante planificación, sin política explícita.

📖

términos

Dreamer

Agente que aprende un mundo en el espacio de los sueños donde se entrena en trayectorias imaginadas para aprender comportamientos y valores de forma completamente latente.

📖

términos

MuZero

Algoritmo revolucionario que aprende simultáneamente el modelo, la política y el valor sin conocimiento previo de las reglas del entorno, combinando MCTS y aprendizaje profundo.

📖

términos

Dinámica del Espacio Latente

Modelado de la evolución temporal de los estados en un espacio de representación comprimido donde las dinámicas son más simples y estables que en el espacio de observación bruto.

📖

términos

Incertidumbre del Modelo

Cuantificación de la incertidumbre del modelo ambiental, crucial para identificar las zonas donde el modelo es fiable y aquellas que requieren más exploración o interacciones reales.

📖

términos

Conjunto de Modelos

Técnica que utiliza múltiples modelos ambientales independientes para estimar la incertidumbre epistémica y mejorar la robustez de las predicciones para la planificación.

📖

términos

Planificación con Modelos Aprendidos

Proceso de búsqueda secuencial que utiliza el modelo aprendido para evaluar diferentes secuencias de acciones futuras y seleccionar el óptimo según las predicciones de recompensa.

📖

términos

Expansión de Valor Basada en Modelo (MVE)

Técnica que utiliza el modelo para extrapolar los retornos más allá del horizonte real, combinando datos reales y simulados para estimar con mayor precisión los valores a largo plazo.

📖

términos

Optimización de Políticas Basada en Modelo (MBPO)

Algoritmo híbrido que utiliza modelos de corto alcance para generar datos sintéticos mientras mantiene un conjunto de datos reales para estabilizar el aprendizaje de la política.

📖

términos

Optimización de Trayectoria

Optimización directa de secuencias de estados-acciones utilizando el gradiente del modelo para encontrar trayectorias óptimas, particularmente efectivo para sistemas continuos.

📖

términos

Motores Físicos Diferenciables

Simuladores físicos implementados con operaciones diferenciables que permiten la propagación de gradientes a través de las simulaciones para el aprendizaje por refuerzo basado en modelo.

📖

términos

Modelo de Dinámica Directa

Modelo predictivo que aprende la transición de estado s_{t+1} = f(s_t, a_t) para anticipar las consecuencias futuras de las acciones en el entorno.

📖

términos

Modelo de Dinámica Inversa

Modelo que aprende a inferir la acción a_t = f^{-1}(s_t, s_{t+1}) que condujo de un estado a otro, útil para el aprendizaje por imitación y la representación de acciones.

📖

términos

Exploración Basada en Modelo

Estrategia de exploración que utiliza la incertidumbre del modelo para guiar al agente hacia estados donde el modelo está menos seguro, favoreciendo el aprendizaje de una representación más completa.

Glosario IA

Model-Based Deep Reinforcement Learning

World Model

Model Predictive Control (MPC)

Dyna Architecture

Imagination-Augmented Agents (I2A)

PlaNet

Dreamer

MuZero

Dinámica del Espacio Latente

Incertidumbre del Modelo

Conjunto de Modelos

Planificación con Modelos Aprendidos

Expansión de Valor Basada en Modelo (MVE)

Optimización de Políticas Basada en Modelo (MBPO)

Optimización de Trayectoria

Motores Físicos Diferenciables

Modelo de Dinámica Directa

Modelo de Dinámica Inversa

Exploración Basada en Modelo

No se encontraron resultados