Optimización Profunda

📖

términos

Momentum de Nesterov

Variante del algoritmo de momentum que aplica una corrección anticipada calculando el gradiente en la posición futura estimada, acelerando la convergencia y reduciendo las oscilaciones.

📖

términos

Adam (Adaptive Moment Estimation)

Algoritmo de optimización que combina las ideas de Momentum y RMSprop, utilizando estimaciones de los primeros y segundos momentos de los gradientes para adaptar las tasas de aprendizaje de cada parámetro.

📖

términos

AdaGrad

Optimizador adaptativo que ajusta la tasa de aprendizaje de cada parámetro en función de la suma histórica de los cuadrados de sus gradientes, favoreciendo los parámetros poco frecuentes.

📖

términos

AdaDelta

Extensión de AdaGrad que limita la ventana de acumulación de gradientes pasados a un tamaño fijo mediante un promedio móvil, evitando la disminución agresiva de la tasa de aprendizaje.

📖

términos

Decay du Taux d'Apprentissage

Estrategia de reducción progresiva de la tasa de aprendizaje durante el entrenamiento, a menudo según un calendario predefinido (step, exponencial o coseno), para refinar la convergencia hacia un mínimo.

📖

términos

Optimiseur LAMB (Layer-wise Adaptive Moments)

Algoritmo de optimización diseñado para el entrenamiento a gran escala, adaptando la tasa de aprendizaje por capa utilizando la norma de los pesos y los gradientes, eficaz para lotes de datos muy grandes.

📖

términos

Optimiseur LARS (Layer-wise Adaptive Rate Scaling)

Método de optimización que adapta la tasa de aprendizaje para cada capa en función del cociente entre la norma de los pesos y la norma de los gradientes, particularmente adaptado para el entrenamiento con lotes grandes.

📖

términos

Lookahead Optimizer

Mecanismo de optimización que actualiza periódicamente los pesos 'lentos' hacia el promedio de los pesos 'rápidos' generados por un optimizador interno, mejorando la generalización y la estabilidad de la convergencia.

📖

términos

RAdam (Adam Rectificado)

Variante de Adam que corrige la varianza de la adaptación de la tasa de aprendizaje en las primeras etapas del entrenamiento, ofreciendo una convergencia más estable sin necesitar una fase de calentamiento (warmup).

📖

términos

SWATS (Cambio de Adam a SGD)

Estrategia que comienza el entrenamiento con un optimizador adaptativo como Adam para una convergencia rápida, luego cambia a la Descenso de Gradiente Estocástico (SGD) para una mejor generalización.

📖

términos

Optimizador Yogi

Modificación de Adam que busca proporcionar una convergencia más estable utilizando una actualización del segundo momento menos agresiva, reduciendo las oscilaciones y mejorando el rendimiento en tareas complejas.

📖

términos

Shampoo

Optimizador de segundo orden que precondiciona los gradientes utilizando aproximaciones de la matriz Hessiana por bloques, acelerando la convergencia para problemas mal condicionados.

📖

términos

Reinicio de la Tasa de Aprendizaje (Learning Rate Restart)

Técnica cíclica donde la tasa de aprendizaje se reinicia periódicamente a su valor inicial, permitiendo que el modelo escape de mínimos locales y explore nuevas regiones del espacio de soluciones.

Glosario IA

Momentum de Nesterov

Adam (Adaptive Moment Estimation)

AdaGrad

AdaDelta

Decay du Taux d'Apprentissage

Optimiseur LAMB (Layer-wise Adaptive Moments)

Optimiseur LARS (Layer-wise Adaptive Rate Scaling)

Lookahead Optimizer

RAdam (Adam Rectificado)

SWATS (Cambio de Adam a SGD)

Optimizador Yogi

Shampoo

Reinicio de la Tasa de Aprendizaje (Learning Rate Restart)

No se encontraron resultados