Aprendizaje mediante Dyna-Q

📖

términos

Aprendizaje por Refuerzo Basado en Modelo

Enfoque de aprendizaje por refuerzo donde el agente construye un modelo interno del entorno para simular transiciones y generar experiencias sin interacción real.

📖

términos

Dyna-Q

Algoritmo híbrido de aprendizaje por refuerzo que combina el aprendizaje directo desde la experiencia real y la planificación utilizando un modelo aprendido para generar experiencias simuladas adicionales.

📖

términos

Aprendizaje directo

Proceso de actualización de los valores de acción o de política basado únicamente en las experiencias reales acumuladas durante la interacción con el entorno.

📖

términos

Planificación en el aprendizaje por refuerzo

Uso de un modelo ambiental para generar experiencias sintéticas y mejorar la política sin interacciones adicionales con el entorno real.

📖

términos

Modelo de transición

Componente del modelo de entorno predictivo que estima la distribución de probabilidad de los estados siguientes dado un estado actual y una acción.

📖

términos

Modelo de recompensa

Función aprendida que predice la recompensa esperada para cada par estado-acción en un entorno de aprendizaje por refuerzo.

📖

términos

Experiencias simuladas

Muestras generadas artificialmente por el modelo interno del entorno para acelerar el aprendizaje sin necesidad de interacciones reales adicionales.

📖

términos

Actualización del valor

Proceso iterativo de ajuste de las estimaciones de valor de acción Q(s,a) basado en las recompensas observadas y los valores de los estados futuros según la ecuación de Bellman.

📖

términos

Memoria de experiencias

Estructura de datos que almacena los triples (estado, acción, recompensa, estado_siguiente) para permitir las actualizaciones repetidas durante la fase de planificación.

📖

términos

Dyna-Q+

Extensión de Dyna-Q que integra un mecanismo de exploración basado en el tiempo transcurrido desde la última visita estado-acción para detectar y adaptarse a los cambios ambientales.

📖

términos

Prioridad de barrido

Variante de Dyna-Q donde las actualizaciones son priorizadas según su impacto potencial en los valores, optimizando la eficiencia computacional de la fase de planificación.

📖

términos

Efecto de planificación

Aceleración del aprendizaje observada cuando el número de pasos de planificación por paso real aumenta, hasta un punto de rendimiento decreciente.

📖

términos

Convergencia del algoritmo

Propiedad que garantiza que las estimaciones de valor de Dyna-Q convergen hacia los valores óptimos bajo ciertas condiciones de modelo exacto y visita infinita.

📖

términos

Error de modelo

Disparidad entre el comportamiento real del entorno y las predicciones del modelo aprendido, pudiendo degradar el rendimiento si no se controla.

📖

términos

Complejidad computacional

Costo computacional de Dyna-Q que depende linealmente del tamaño de la memoria de experiencias y del número de actualizaciones de planificación por iteración.

📖

términos

Generalización de modelo

Capacidad de extrapolar las predicciones del modelo a estados-acciones no observados, a menudo realizada por redes neuronales u otros aproximadores de función.

📖

términos

Muestreo del espacio de estados

Estrategia de selección de experiencias simuladas desde la memoria durante la fase de planificación, influyendo en la eficiencia de aprendizaje de Dyna-Q.

📖

términos

Función de planificación

Componente algorítmico que realiza actualizaciones repetitivas sobre las experiencias almacenadas para refinar las estimaciones de valor sin nueva interacción ambiental.

📖

términos

Velocidad de aprendizaje adaptativa

Mecanismo de ajuste dinámico de la tasa de aprendizaje en Dyna-Q para optimizar la convergencia considerando la varianza de las experiencias reales y simuladas.

Glosario IA

Aprendizaje por Refuerzo Basado en Modelo

Dyna-Q

Aprendizaje directo

Planificación en el aprendizaje por refuerzo

Modelo de transición

Modelo de recompensa

Experiencias simuladas

Actualización del valor

Memoria de experiencias

Dyna-Q+

Prioridad de barrido

Efecto de planificación

Convergencia del algoritmo

Error de modelo

Complejidad computacional

Generalización de modelo

Muestreo del espacio de estados

Función de planificación

Velocidad de aprendizaje adaptativa

No se encontraron resultados