Aprendizaje por Curiosidad Basado en Modelos

📖

términos

Modelo de Dinámica

Un modelo aprendido por el agente que predice la evolución del entorno, es decir, el siguiente estado o la siguiente observación dado el estado actual y la acción realizada. La calidad de este modelo es central para el aprendizaje por curiosidad basado en modelo (model-based).

📖

términos

Módulo de Curiosidad Intrínseca (ICM)

Una arquitectura de red neuronal específica que combina un módulo de predicción del siguiente estado en un espacio de características y un módulo inverso para predecir la acción. El error de predicción del módulo hacia adelante se utiliza como recompensa intrínseca.

📖

términos

Exploración por Curiosidad

Una estrategia de exploración donde un agente está motivado a visitar estados del entorno que maximizan su aprendizaje, medido por señales internas como el error de predicción. El agente busca activamente lo que no sabe.

📖

términos

Problema de la Televisión Aleatoria

Un desafío mayor en el aprendizaje por curiosidad donde un agente puede obsesionarse con fuentes de entropía impredecibles pero inútiles, como una pantalla de estática de televisión. Esto conduce a una recompensa intrínseca alta sin aprendizaje significativo sobre la dinámica del entorno.

📖

términos

Espacio de Estados Latentes

Una representación comprimida y abstracta del entorno, aprendida por una red neuronal, en la cual el modelo de dinámica aprende a predecir. Trabajar en este espacio reduce la complejidad y ayuda a centrarse en las características relevantes para la predicción.

📖

términos

Modelado de la Recompensa Intrínseca

El proceso de diseño y ponderación de la señal de recompensa intrínseca, a menudo combinándola con la recompensa extrínseca de la tarea. Un buen modelado es crucial para equilibrar exploración y explotación.

📖

términos

Aprendizaje del Modelo

El proceso por el cual un agente de MBRL mejora su modelo de dinámica interactuando con el entorno. Este proceso es iterativo: el modelo se usa para explorar, y los nuevos datos recolectados sirven para refinar el modelo.

📖

términos

Sorpresa Modal

Un concepto que designa una situación donde la experiencia del agente contradice las expectativas de su modelo interno del mundo. En los sistemas basados en modelo, la sorpresa se mide directamente por el error de predicción del modelo.

📖

términos

Red de Predicción

El componente neuronal del modelo de dinámica responsable de la generación de la predicción del siguiente estado latente. Su rendimiento, evaluado por una función de pérdida, determina directamente la señal de curiosidad.

📖

términos

Marco de Aprendizaje por Refuerzo Intrínseco

Una estructura general para el aprendizaje por refuerzo donde la función objetivo del agente es una suma ponderada de una recompensa extrínseca (relacionada con la tarea) y una recompensa intrínseca (relacionada con la exploración).

📖

términos

Exploración por Maximización de la Información Variacional (VIME)

Un método formal que utiliza la inferencia variacional para maximizar la información ganada sobre los parámetros del modelo del entorno. Proporciona una medida de curiosidad teóricamente bien fundamentada que evita ciertas trampas.

📖

términos

Límite de Curiosidad

Un mecanismo o una restricción teórica que tiene como objetivo limitar la curiosidad del agente para dirigirla hacia aspectos del entorno que son tanto desconocidos como controlables/aprendibles. Esto ayuda a mitigar el problema de la televisión aleatoria.

Glosario IA

Modelo de Dinámica

Módulo de Curiosidad Intrínseca (ICM)

Exploración por Curiosidad

Problema de la Televisión Aleatoria

Espacio de Estados Latentes

Modelado de la Recompensa Intrínseca

Aprendizaje del Modelo

Sorpresa Modal

Red de Predicción

Marco de Aprendizaje por Refuerzo Intrínseco

Exploración por Maximización de la Información Variacional (VIME)

Límite de Curiosidad

No se encontraron resultados