Glosario IA
El diccionario completo de la Inteligencia Artificial
SVRG (Gradiente Estocástico de Varianza Reducida)
Algoritmo de optimización que combina cálculos de gradiente completos periódicos con actualizaciones estocásticas para reducir la varianza. SVRG mantiene una referencia del gradiente completo para corregir las estimaciones de gradiente estocásticas.
SAGA
Método de reducción de varianza que utiliza una tabla de gradientes históricos para cada punto de datos y realiza correcciones en cada iteración. SAGA combina las ventajas de SAG y SVRG con una convergencia lineal garantizada para problemas convexos.
SAG (Gradiente Promedio Estocástico)
Algoritmo de optimización que mantiene en memoria los gradientes previos para cada punto de datos y los actualiza de manera incremental. SAG reduce la varianza utilizando el promedio de los gradientes históricos como estimación de referencia.
Mini-lote
Subconjunto de tamaño intermedio del conjunto de datos completo utilizado para calcular estimaciones de gradiente en cada iteración. Los mini-lotes reducen la varianza en comparación con el SGD puro, siendo a la vez más eficientes que los gradientes completos.
Variables de control
Técnica estadística utilizada para reducir la varianza de los estimadores introduciendo una variable de control correlacionada. En la optimización estocástica, las variables de control corrigen las estimaciones de gradiente utilizando una referencia de baja varianza.
Instantánea de gradiente
Cálculo completo del gradiente almacenado periódicamente en algoritmos de reducción de varianza como SVRG. La instantánea sirve como referencia para corregir las estimaciones de gradiente estocásticas entre las actualizaciones completas.
Convergencia lineal
Tasa de convergencia donde el error disminuye exponencialmente con el número de iteraciones para problemas fuertemente convexos. Los métodos de reducción de varianza como SVRG y SAGA alcanzan una convergencia lineal bajo ciertas condiciones.
Varianza del gradiente
Medida de la variabilidad de las estimaciones de gradiente estocásticas debido al muestreo aleatorio de los datos. La reducción de esta varianza es el objetivo principal de las técnicas SVRG y SAGA para mejorar la convergencia.
Complejidad de memoria
Espacio de memoria requerido por el algoritmo para almacenar la información necesaria para los cálculos. SAG y SAGA requieren O(n) de memoria para almacenar los gradientes históricos, mientras que SVRG solo requiere O(1) de memoria adicional.
Convexidad fuerte
Propiedad de una función donde su curvatura está acotada inferiormente por una constante positiva. La convexidad fuerte es una condición clave que garantiza la convergencia lineal de los métodos de reducción de varianza.
Operador proximal
Operación matemática que generaliza la proyección sobre un conjunto convexo para incluir términos de regularización. Los métodos de reducción de varianza pueden combinarse con operadores proximales para tratar problemas no diferenciables.
Estimador de gradiente estocástico
Estimador insesgado del gradiente verdadero calculado sobre un subconjunto aleatorio de los datos. Las técnicas de reducción de varianza modifican este estimador para reducir su varianza manteniendo su sesgo nulo.
Cota de varianza
Límite superior teórico sobre la varianza de las estimaciones de gradiente garantizado por los algoritmos de reducción de varianza. Esta cota a menudo está relacionada con el condicionamiento del problema y la distancia al óptimo.
SARAH (StochAstic Recursive gAdient algoritHm)
Algoritmo de reducción de varianza que utiliza un enfoque recursivo para actualizar el estimador de gradiente en cada iteración. SARAH combina ideas de SVRG y métodos de gradiente acelerado con convergencia garantizada.