Glosario IA
El diccionario completo de la Inteligencia Artificial
Función Q
Función de evaluación que cuantifica la calidad de una acción específica en un estado particular en términos de recompensas futuras esperadas.
Descomposición de la función Q
Técnica que separa la función Q(s,a) en dos componentes: el valor del estado V(s) y la ventaja A(s,a) para mejorar la eficiencia del aprendizaje.
Ventaja
Medida que cuantifica cuánto mejor es una acción comparada con la media de las acciones posibles en un estado dado, definida como A(s,a) = Q(s,a) - V(s).
Arquitectura Dueling
Estructura de red neuronal con dos flujos distintos: uno para estimar V(s) y otro para estimar A(s,a), combinados posteriormente para obtener Q(s,a).
Estimador de valor
Parte de la arquitectura dueling encargada de estimar el valor intrínseco de cada estado independientemente de las acciones posibles.
Estimador de ventaja
Componente de la red dueling que calcula la ventaja relativa de cada acción en comparación con la media de las acciones en un estado.
Reducción de varianza
Beneficio principal de la descomposición Q donde la separación entre valor y ventaja estabiliza el aprendizaje reduciendo la varianza de las estimaciones.
Estabilidad del aprendizaje
Característica de un algoritmo de aprendizaje que converge de manera predecible sin oscilaciones excesivas ni divergencia durante el entrenamiento.
Estados-Acciones
Pares fundamentales en el aprendizaje por refuerzo que representan una situación específica y la elección de acción asociada en el entorno.
Agregación de ventajas
Operación que combina las salidas de los estimadores de valor y ventaja para reconstruir la función Q final respetando la identidad Q(s,a) = V(s) + A(s,a).
Normalización de ventajas
Técnica de sustracción del promedio de las ventajas para garantizar la identificabilidad entre V(s) y A(s,a) en la arquitectura Dueling.
Compartición de representación
Principio mediante el cual las capas convolucionales iniciales extraen características comunes utilizadas tanto por los estimadores de valor como de ventaja.
Optimización no convexa
Desafío matemático en el aprendizaje por refuerzo donde la superficie de pérdida contiene muchos óptimos locales, dificultando la convergencia.
Eficiencia de muestreo
Capacidad de un algoritmo para aprender eficazmente con un número limitado de experiencias, mejorada mediante la descomposición valor-ventaja.
Propagación de gradientes
Mecanismo mediante el cual los errores de predicción se retropropagan a través de la red para ajustar simultáneamente los estimadores V(s) y A(s,a).