Glosario IA
El diccionario completo de la Inteligencia Artificial
Aprendizaje por Refuerzo Inverso Basado en Modelos
Un enfoque que infiere una función de recompensa a partir de demostraciones expertas utilizando un modelo del entorno para generar y evaluar trayectorias alternativas plausibles.
Inferencia de Función de Recompensa
El proceso de estimación de la función de recompensa subyacente de un agente observando su comportamiento, a menudo formulado como un problema de optimización de la verosimilitud de las trayectorias demostradas.
Modelo de Dinámica Ambiental
Un modelo aprendido que predice el siguiente estado y la recompensa dado un estado y una acción actuales, utilizado para simular trayectorias en el aprendizaje por refuerzo basado en modelo.
Generación de Trayectorias Plausibles
El uso de un modelo ambiental para crear secuencias de estados-acciones que son coherentes con la dinámica del sistema y las políticas observadas, sirviendo como datos sintéticos para la inferencia.
Sesgo de Imitación
Tendencia de un agente aprendido por refuerzo inverso a sobre-imitar las acciones demostradas sin generalizar a estados no vistos, requiriendo el uso de modelos para explorar más allá de los datos expertos.
Optimización de la Verosimilitud de las Trayectorias
Método de ajuste de la función de recompensa para maximizar la probabilidad que las trayectorias expertas observadas sean óptimas bajo la recompensa inferida.
Función de Recompensa Ambigua
Problema donde múltiples funciones de recompensa diferentes pueden explicar de manera equivalente las mismas demostraciones expertas, requiriendo restricciones o a priori para resolver la ambigüedad.
Conjunto de Trayectorias Sintéticas
Colección de trayectorias generadas por el modelo ambiental, utilizada para enriquecer los datos de demostración y mejorar la robustez de la inferencia de la recompensa.
Error de Modelo Ambiental
Diferencia entre la dinámica real del entorno y la predicha por el modelo aprendido, que puede sesgar la inferencia de la recompensa si no se corrige.
Retropropagación a través del Modelo
Técnica de cálculo de los gradientes de la función de recompensa con respecto a sus parámetros propagando el error a través del modelo de dinámica diferenciable.
Espacio de Políticas
Conjunto de todas las políticas posibles π(a|s) que el agente puede adoptar, en el cual la inferencia por refuerzo inverso busca identificar la política óptima compatible con las demostraciones.
Planificación Monte Carlo basada en Modelo
Método que utiliza simulaciones estocásticas del modelo ambiental para evaluar diferentes funciones de recompensa candidatas y seleccionar la que mejor explica las demostraciones.
Función de Costo de Regularización
Término añadido al objetivo de inferencia para penalizar las funciones de recompensa complejas o irreales, favoreciendo soluciones más simples y generalizables.
Distribución Posterior sobre las Recompensas
Enfoque bayesiano que mantiene una distribución de probabilidad sobre las posibles funciones de recompensa en lugar de una estimación puntual, permitiendo cuantificar la incertidumbre.
Horizonte de Simulación
Número máximo de pasos futuros simulados por el modelo ambiental durante la generación de trayectorias, influyendo en el equilibrio entre exploración y costo computacional.
Muestreo de Importancia Basado en Modelo
Técnica que utiliza el modelo para generar trayectorias desde una distribución proposicional, luego ponderándolas por su verosimilitud bajo la política experta.
Método de Máxima Entropía
Principio de inferencia que elige la función de recompensa menos informativa (con máxima entropía) entre aquellas que explican las demostraciones, evitando el sobreajuste.