Aprendizaje por Refuerzo Inverso Basado en Modelos

📖

términos

Aprendizaje por Refuerzo Inverso Basado en Modelos

Un enfoque que infiere una función de recompensa a partir de demostraciones expertas utilizando un modelo del entorno para generar y evaluar trayectorias alternativas plausibles.

📖

términos

Inferencia de Función de Recompensa

El proceso de estimación de la función de recompensa subyacente de un agente observando su comportamiento, a menudo formulado como un problema de optimización de la verosimilitud de las trayectorias demostradas.

📖

términos

Modelo de Dinámica Ambiental

Un modelo aprendido que predice el siguiente estado y la recompensa dado un estado y una acción actuales, utilizado para simular trayectorias en el aprendizaje por refuerzo basado en modelo.

📖

términos

Generación de Trayectorias Plausibles

El uso de un modelo ambiental para crear secuencias de estados-acciones que son coherentes con la dinámica del sistema y las políticas observadas, sirviendo como datos sintéticos para la inferencia.

📖

términos

Sesgo de Imitación

Tendencia de un agente aprendido por refuerzo inverso a sobre-imitar las acciones demostradas sin generalizar a estados no vistos, requiriendo el uso de modelos para explorar más allá de los datos expertos.

📖

términos

Optimización de la Verosimilitud de las Trayectorias

Método de ajuste de la función de recompensa para maximizar la probabilidad que las trayectorias expertas observadas sean óptimas bajo la recompensa inferida.

📖

términos

Función de Recompensa Ambigua

Problema donde múltiples funciones de recompensa diferentes pueden explicar de manera equivalente las mismas demostraciones expertas, requiriendo restricciones o a priori para resolver la ambigüedad.

📖

términos

Conjunto de Trayectorias Sintéticas

Colección de trayectorias generadas por el modelo ambiental, utilizada para enriquecer los datos de demostración y mejorar la robustez de la inferencia de la recompensa.

📖

términos

Error de Modelo Ambiental

Diferencia entre la dinámica real del entorno y la predicha por el modelo aprendido, que puede sesgar la inferencia de la recompensa si no se corrige.

📖

términos

Retropropagación a través del Modelo

Técnica de cálculo de los gradientes de la función de recompensa con respecto a sus parámetros propagando el error a través del modelo de dinámica diferenciable.

📖

términos

Espacio de Políticas

Conjunto de todas las políticas posibles π(a|s) que el agente puede adoptar, en el cual la inferencia por refuerzo inverso busca identificar la política óptima compatible con las demostraciones.

📖

términos

Planificación Monte Carlo basada en Modelo

Método que utiliza simulaciones estocásticas del modelo ambiental para evaluar diferentes funciones de recompensa candidatas y seleccionar la que mejor explica las demostraciones.

📖

términos

Función de Costo de Regularización

Término añadido al objetivo de inferencia para penalizar las funciones de recompensa complejas o irreales, favoreciendo soluciones más simples y generalizables.

📖

términos

Distribución Posterior sobre las Recompensas

Enfoque bayesiano que mantiene una distribución de probabilidad sobre las posibles funciones de recompensa en lugar de una estimación puntual, permitiendo cuantificar la incertidumbre.

📖

términos

Horizonte de Simulación

Número máximo de pasos futuros simulados por el modelo ambiental durante la generación de trayectorias, influyendo en el equilibrio entre exploración y costo computacional.

📖

términos

Muestreo de Importancia Basado en Modelo

Técnica que utiliza el modelo para generar trayectorias desde una distribución proposicional, luego ponderándolas por su verosimilitud bajo la política experta.

📖

términos

Método de Máxima Entropía

Principio de inferencia que elige la función de recompensa menos informativa (con máxima entropía) entre aquellas que explican las demostraciones, evitando el sobreajuste.

Glosario IA