Factorización del Valor

📖

términos

Función Q

Función de evaluación que cuantifica la calidad de una acción específica en un estado particular en términos de recompensas futuras esperadas.

📖

términos

Descomposición de la función Q

Técnica que separa la función Q(s,a) en dos componentes: el valor del estado V(s) y la ventaja A(s,a) para mejorar la eficiencia del aprendizaje.

📖

términos

Ventaja

Medida que cuantifica cuánto mejor es una acción comparada con la media de las acciones posibles en un estado dado, definida como A(s,a) = Q(s,a) - V(s).

📖

términos

Arquitectura Dueling

Estructura de red neuronal con dos flujos distintos: uno para estimar V(s) y otro para estimar A(s,a), combinados posteriormente para obtener Q(s,a).

📖

términos

Estimador de valor

Parte de la arquitectura dueling encargada de estimar el valor intrínseco de cada estado independientemente de las acciones posibles.

📖

términos

Estimador de ventaja

Componente de la red dueling que calcula la ventaja relativa de cada acción en comparación con la media de las acciones en un estado.

📖

términos

Reducción de varianza

Beneficio principal de la descomposición Q donde la separación entre valor y ventaja estabiliza el aprendizaje reduciendo la varianza de las estimaciones.

📖

términos

Estabilidad del aprendizaje

Característica de un algoritmo de aprendizaje que converge de manera predecible sin oscilaciones excesivas ni divergencia durante el entrenamiento.

📖

términos

Estados-Acciones

Pares fundamentales en el aprendizaje por refuerzo que representan una situación específica y la elección de acción asociada en el entorno.

📖

términos

Agregación de ventajas

Operación que combina las salidas de los estimadores de valor y ventaja para reconstruir la función Q final respetando la identidad Q(s,a) = V(s) + A(s,a).

📖

términos

Normalización de ventajas

Técnica de sustracción del promedio de las ventajas para garantizar la identificabilidad entre V(s) y A(s,a) en la arquitectura Dueling.

📖

términos

Compartición de representación

Principio mediante el cual las capas convolucionales iniciales extraen características comunes utilizadas tanto por los estimadores de valor como de ventaja.

📖

términos

Optimización no convexa

Desafío matemático en el aprendizaje por refuerzo donde la superficie de pérdida contiene muchos óptimos locales, dificultando la convergencia.

📖

términos

Eficiencia de muestreo

Capacidad de un algoritmo para aprender eficazmente con un número limitado de experiencias, mejorada mediante la descomposición valor-ventaja.

📖

términos

Propagación de gradientes

Mecanismo mediante el cual los errores de predicción se retropropagan a través de la red para ajustar simultáneamente los estimadores V(s) y A(s,a).

Glosario IA

Función Q

Descomposición de la función Q

Ventaja

Arquitectura Dueling

Estimador de valor

Estimador de ventaja

Reducción de varianza

Estabilidad del aprendizaje

Estados-Acciones

Agregación de ventajas

Normalización de ventajas

Compartición de representación

Optimización no convexa

Eficiencia de muestreo

Propagación de gradientes

No se encontraron resultados