Técnicas de Reducción de Varianza

📖

términos

SVRG (Gradiente Estocástico de Varianza Reducida)

Algoritmo de optimización que combina cálculos de gradiente completos periódicos con actualizaciones estocásticas para reducir la varianza. SVRG mantiene una referencia del gradiente completo para corregir las estimaciones de gradiente estocásticas.

📖

términos

SAGA

Método de reducción de varianza que utiliza una tabla de gradientes históricos para cada punto de datos y realiza correcciones en cada iteración. SAGA combina las ventajas de SAG y SVRG con una convergencia lineal garantizada para problemas convexos.

📖

términos

SAG (Gradiente Promedio Estocástico)

Algoritmo de optimización que mantiene en memoria los gradientes previos para cada punto de datos y los actualiza de manera incremental. SAG reduce la varianza utilizando el promedio de los gradientes históricos como estimación de referencia.

📖

términos

Mini-lote

Subconjunto de tamaño intermedio del conjunto de datos completo utilizado para calcular estimaciones de gradiente en cada iteración. Los mini-lotes reducen la varianza en comparación con el SGD puro, siendo a la vez más eficientes que los gradientes completos.

📖

términos

Variables de control

Técnica estadística utilizada para reducir la varianza de los estimadores introduciendo una variable de control correlacionada. En la optimización estocástica, las variables de control corrigen las estimaciones de gradiente utilizando una referencia de baja varianza.

📖

términos

Instantánea de gradiente

Cálculo completo del gradiente almacenado periódicamente en algoritmos de reducción de varianza como SVRG. La instantánea sirve como referencia para corregir las estimaciones de gradiente estocásticas entre las actualizaciones completas.

📖

términos

Convergencia lineal

Tasa de convergencia donde el error disminuye exponencialmente con el número de iteraciones para problemas fuertemente convexos. Los métodos de reducción de varianza como SVRG y SAGA alcanzan una convergencia lineal bajo ciertas condiciones.

📖

términos

Varianza del gradiente

Medida de la variabilidad de las estimaciones de gradiente estocásticas debido al muestreo aleatorio de los datos. La reducción de esta varianza es el objetivo principal de las técnicas SVRG y SAGA para mejorar la convergencia.

📖

términos

Complejidad de memoria

Espacio de memoria requerido por el algoritmo para almacenar la información necesaria para los cálculos. SAG y SAGA requieren O(n) de memoria para almacenar los gradientes históricos, mientras que SVRG solo requiere O(1) de memoria adicional.

📖

términos

Convexidad fuerte

Propiedad de una función donde su curvatura está acotada inferiormente por una constante positiva. La convexidad fuerte es una condición clave que garantiza la convergencia lineal de los métodos de reducción de varianza.

📖

términos

Operador proximal

Operación matemática que generaliza la proyección sobre un conjunto convexo para incluir términos de regularización. Los métodos de reducción de varianza pueden combinarse con operadores proximales para tratar problemas no diferenciables.

📖

términos

Estimador de gradiente estocástico

Estimador insesgado del gradiente verdadero calculado sobre un subconjunto aleatorio de los datos. Las técnicas de reducción de varianza modifican este estimador para reducir su varianza manteniendo su sesgo nulo.

📖

términos

Cota de varianza

Límite superior teórico sobre la varianza de las estimaciones de gradiente garantizado por los algoritmos de reducción de varianza. Esta cota a menudo está relacionada con el condicionamiento del problema y la distancia al óptimo.

📖

términos

SARAH (StochAstic Recursive gAdient algoritHm)

Algoritmo de reducción de varianza que utiliza un enfoque recursivo para actualizar el estimador de gradiente en cada iteración. SARAH combina ideas de SVRG y métodos de gradiente acelerado con convergencia garantizada.

Glosario IA

SVRG (Gradiente Estocástico de Varianza Reducida)

SAGA

SAG (Gradiente Promedio Estocástico)

Mini-lote

Variables de control

Instantánea de gradiente

Convergencia lineal

Varianza del gradiente

Complejidad de memoria

Convexidad fuerte

Operador proximal

Estimador de gradiente estocástico

Cota de varianza

SARAH (StochAstic Recursive gAdient algoritHm)

No se encontraron resultados