Glosario IA
El diccionario completo de la Inteligencia Artificial
Modelo de Dinámica
Un modelo aprendido por el agente que predice la evolución del entorno, es decir, el siguiente estado o la siguiente observación dado el estado actual y la acción realizada. La calidad de este modelo es central para el aprendizaje por curiosidad basado en modelo (model-based).
Módulo de Curiosidad Intrínseca (ICM)
Una arquitectura de red neuronal específica que combina un módulo de predicción del siguiente estado en un espacio de características y un módulo inverso para predecir la acción. El error de predicción del módulo hacia adelante se utiliza como recompensa intrínseca.
Exploración por Curiosidad
Una estrategia de exploración donde un agente está motivado a visitar estados del entorno que maximizan su aprendizaje, medido por señales internas como el error de predicción. El agente busca activamente lo que no sabe.
Problema de la Televisión Aleatoria
Un desafío mayor en el aprendizaje por curiosidad donde un agente puede obsesionarse con fuentes de entropía impredecibles pero inútiles, como una pantalla de estática de televisión. Esto conduce a una recompensa intrínseca alta sin aprendizaje significativo sobre la dinámica del entorno.
Espacio de Estados Latentes
Una representación comprimida y abstracta del entorno, aprendida por una red neuronal, en la cual el modelo de dinámica aprende a predecir. Trabajar en este espacio reduce la complejidad y ayuda a centrarse en las características relevantes para la predicción.
Modelado de la Recompensa Intrínseca
El proceso de diseño y ponderación de la señal de recompensa intrínseca, a menudo combinándola con la recompensa extrínseca de la tarea. Un buen modelado es crucial para equilibrar exploración y explotación.
Aprendizaje del Modelo
El proceso por el cual un agente de MBRL mejora su modelo de dinámica interactuando con el entorno. Este proceso es iterativo: el modelo se usa para explorar, y los nuevos datos recolectados sirven para refinar el modelo.
Sorpresa Modal
Un concepto que designa una situación donde la experiencia del agente contradice las expectativas de su modelo interno del mundo. En los sistemas basados en modelo, la sorpresa se mide directamente por el error de predicción del modelo.
Red de Predicción
El componente neuronal del modelo de dinámica responsable de la generación de la predicción del siguiente estado latente. Su rendimiento, evaluado por una función de pérdida, determina directamente la señal de curiosidad.
Marco de Aprendizaje por Refuerzo Intrínseco
Una estructura general para el aprendizaje por refuerzo donde la función objetivo del agente es una suma ponderada de una recompensa extrínseca (relacionada con la tarea) y una recompensa intrínseca (relacionada con la exploración).
Exploración por Maximización de la Información Variacional (VIME)
Un método formal que utiliza la inferencia variacional para maximizar la información ganada sobre los parámetros del modelo del entorno. Proporciona una medida de curiosidad teóricamente bien fundamentada que evita ciertas trampas.
Límite de Curiosidad
Un mecanismo o una restricción teórica que tiene como objetivo limitar la curiosidad del agente para dirigirla hacia aspectos del entorno que son tanto desconocidos como controlables/aprendibles. Esto ayuda a mitigar el problema de la televisión aleatoria.