Glosario IA
El diccionario completo de la Inteligencia Artificial
Aprendizaje por Refuerzo Basado en Modelo
Enfoque de aprendizaje por refuerzo donde el agente construye un modelo interno del entorno para simular transiciones y generar experiencias sin interacción real.
Dyna-Q
Algoritmo híbrido de aprendizaje por refuerzo que combina el aprendizaje directo desde la experiencia real y la planificación utilizando un modelo aprendido para generar experiencias simuladas adicionales.
Aprendizaje directo
Proceso de actualización de los valores de acción o de política basado únicamente en las experiencias reales acumuladas durante la interacción con el entorno.
Planificación en el aprendizaje por refuerzo
Uso de un modelo ambiental para generar experiencias sintéticas y mejorar la política sin interacciones adicionales con el entorno real.
Modelo de transición
Componente del modelo de entorno predictivo que estima la distribución de probabilidad de los estados siguientes dado un estado actual y una acción.
Modelo de recompensa
Función aprendida que predice la recompensa esperada para cada par estado-acción en un entorno de aprendizaje por refuerzo.
Experiencias simuladas
Muestras generadas artificialmente por el modelo interno del entorno para acelerar el aprendizaje sin necesidad de interacciones reales adicionales.
Actualización del valor
Proceso iterativo de ajuste de las estimaciones de valor de acción Q(s,a) basado en las recompensas observadas y los valores de los estados futuros según la ecuación de Bellman.
Memoria de experiencias
Estructura de datos que almacena los triples (estado, acción, recompensa, estado_siguiente) para permitir las actualizaciones repetidas durante la fase de planificación.
Dyna-Q+
Extensión de Dyna-Q que integra un mecanismo de exploración basado en el tiempo transcurrido desde la última visita estado-acción para detectar y adaptarse a los cambios ambientales.
Prioridad de barrido
Variante de Dyna-Q donde las actualizaciones son priorizadas según su impacto potencial en los valores, optimizando la eficiencia computacional de la fase de planificación.
Efecto de planificación
Aceleración del aprendizaje observada cuando el número de pasos de planificación por paso real aumenta, hasta un punto de rendimiento decreciente.
Convergencia del algoritmo
Propiedad que garantiza que las estimaciones de valor de Dyna-Q convergen hacia los valores óptimos bajo ciertas condiciones de modelo exacto y visita infinita.
Error de modelo
Disparidad entre el comportamiento real del entorno y las predicciones del modelo aprendido, pudiendo degradar el rendimiento si no se controla.
Complejidad computacional
Costo computacional de Dyna-Q que depende linealmente del tamaño de la memoria de experiencias y del número de actualizaciones de planificación por iteración.
Generalización de modelo
Capacidad de extrapolar las predicciones del modelo a estados-acciones no observados, a menudo realizada por redes neuronales u otros aproximadores de función.
Muestreo del espacio de estados
Estrategia de selección de experiencias simuladas desde la memoria durante la fase de planificación, influyendo en la eficiencia de aprendizaje de Dyna-Q.
Función de planificación
Componente algorítmico que realiza actualizaciones repetitivas sobre las experiencias almacenadas para refinar las estimaciones de valor sin nueva interacción ambiental.
Velocidad de aprendizaje adaptativa
Mecanismo de ajuste dinámico de la tasa de aprendizaje en Dyna-Q para optimizar la convergencia considerando la varianza de las experiencias reales y simuladas.