Glosario IA
El diccionario completo de la Inteligencia Artificial
Conjunto de Modelos
Enfoque que consiste en entrenar varios modelos de predicción simultáneamente para combinar sus predicciones y reducir el error de generalización. Esta técnica permite mejorar la robustez y estimar la incertidumbre epistémica en los sistemas de aprendizaje por refuerzo.
Bootstrap de Conjuntos
Método de muestreo con reemplazo utilizado para crear conjuntos de datos de entrenamiento variados, permitiendo entrenar varios modelos en subconjuntos diferentes para capturar la variabilidad de las predicciones. Particularmente efectivo para la estimación de la incertidumbre en RL basado en modelos (Model-Based RL).
Predicción de Conjunto
Técnica que agrega las predicciones de varios modelos que forman un conjunto, típicamente mediante promediado o votación, para obtener una predicción final más estable y precisa. La varianza entre las predicciones individuales cuantifica la incertidumbre del modelo.
Robustez de Decisión
Capacidad de un agente para mantener un rendimiento aceptable frente a las incertidumbres del modelo y a las variaciones del entorno, utilizando conjuntos para evaluar la confianza de las decisiones. Crítico para el despliegue de agentes de RL en entornos reales.
Promediado de Conjunto
Método de agregación donde la predicción final es el promedio de las predicciones individuales de cada modelo del conjunto, reduciendo el sesgo y la varianza al tiempo que proporciona una medida natural de incertidumbre. Base de los enfoques modernos de conjuntos en RL.
Ponderación de Incertidumbre
Estrategia que utiliza la incertidumbre estimada por los conjuntos para ponderar las decisiones, favoreciendo las acciones con predicciones más ciertas durante la explotación y explorando las zonas de alta incertidumbre. Mejora el equilibrio exploración-explotación en RL.
Exploración guiada por la incertidumbre
Política de exploración que utiliza las medidas de incertidumbre de los conjuntos para guiar al agente hacia estados poco conocidos, optimizando la recolección de información para mejorar el aprendizaje del modelo. Alternativa eficaz a los métodos de exploración basados en la curiosidad.
Bayesiano Aproximado
Aproximación de la inferencia bayesiana exacta utilizando conjuntos de redes neuronales para estimar la distribución posterior de los parámetros del modelo. Proporciona una interpretación probabilística práctica para la cuantificación de la incertidumbre en RL.
Incertidumbre Aleatoria
Incertidumbre inherente al proceso, irreducible incluso con datos infinitos, resultante del ruido estocástico en el entorno u observaciones. Diferenciada de la incertidumbre epistémica en los enfoques modernos de cuantificación.
Varianza del Conjunto
Métrica que cuantifica la dispersión de las predicciones entre los diferentes modelos de un conjunto, sirviendo como proxy directo para la incertidumbre epistémica en los sistemas RL basados en modelos. Más elevada en las regiones poco exploradas del espacio de estados.
Distribución Posterior Predictiva
Distribución completa sobre estados futuros o recompensas que integra tanto la incertidumbre sobre los parámetros del modelo como el ruido del proceso, aproximada por las predicciones del conjunto en la práctica. Fundamental para la planificación robusta en RL.
Eficiencia de Muestreo
Medida de la capacidad de un algoritmo para aprender con un mínimo de interacciones con el entorno, mejorada por los conjuntos que permiten una transferencia eficiente de conocimientos y una exploración dirigida. Crítica para aplicaciones RL costosas en datos.
Generalización por Conjunto
Capacidad de los métodos de conjunto para generalizar mejor a estados no vidos combinando los conocimientos de varios modelos parcialmente correctos, reduciendo el sobreajuste y mejorando la robustez frente a variaciones en la distribución.
Hiperparámetros del Conjunto
Parámetros que controlan la configuración del conjunto, incluyendo el número de modelos, las tasas de bootstrap, los métodos de agregación y las estrategias de diversificación. Cruciales para optimizar el equilibrio entre rendimiento y complejidad computacional.