Glosario IA
El diccionario completo de la Inteligencia Artificial
Momentum de Nesterov
Variante del algoritmo de momentum que aplica una corrección anticipada calculando el gradiente en la posición futura estimada, acelerando la convergencia y reduciendo las oscilaciones.
Adam (Adaptive Moment Estimation)
Algoritmo de optimización que combina las ideas de Momentum y RMSprop, utilizando estimaciones de los primeros y segundos momentos de los gradientes para adaptar las tasas de aprendizaje de cada parámetro.
AdaGrad
Optimizador adaptativo que ajusta la tasa de aprendizaje de cada parámetro en función de la suma histórica de los cuadrados de sus gradientes, favoreciendo los parámetros poco frecuentes.
AdaDelta
Extensión de AdaGrad que limita la ventana de acumulación de gradientes pasados a un tamaño fijo mediante un promedio móvil, evitando la disminución agresiva de la tasa de aprendizaje.
Decay du Taux d'Apprentissage
Estrategia de reducción progresiva de la tasa de aprendizaje durante el entrenamiento, a menudo según un calendario predefinido (step, exponencial o coseno), para refinar la convergencia hacia un mínimo.
Optimiseur LAMB (Layer-wise Adaptive Moments)
Algoritmo de optimización diseñado para el entrenamiento a gran escala, adaptando la tasa de aprendizaje por capa utilizando la norma de los pesos y los gradientes, eficaz para lotes de datos muy grandes.
Optimiseur LARS (Layer-wise Adaptive Rate Scaling)
Método de optimización que adapta la tasa de aprendizaje para cada capa en función del cociente entre la norma de los pesos y la norma de los gradientes, particularmente adaptado para el entrenamiento con lotes grandes.
Lookahead Optimizer
Mecanismo de optimización que actualiza periódicamente los pesos 'lentos' hacia el promedio de los pesos 'rápidos' generados por un optimizador interno, mejorando la generalización y la estabilidad de la convergencia.
RAdam (Adam Rectificado)
Variante de Adam que corrige la varianza de la adaptación de la tasa de aprendizaje en las primeras etapas del entrenamiento, ofreciendo una convergencia más estable sin necesitar una fase de calentamiento (warmup).
SWATS (Cambio de Adam a SGD)
Estrategia que comienza el entrenamiento con un optimizador adaptativo como Adam para una convergencia rápida, luego cambia a la Descenso de Gradiente Estocástico (SGD) para una mejor generalización.
Optimizador Yogi
Modificación de Adam que busca proporcionar una convergencia más estable utilizando una actualización del segundo momento menos agresiva, reduciendo las oscilaciones y mejorando el rendimiento en tareas complejas.
Shampoo
Optimizador de segundo orden que precondiciona los gradientes utilizando aproximaciones de la matriz Hessiana por bloques, acelerando la convergencia para problemas mal condicionados.
Reinicio de la Tasa de Aprendizaje (Learning Rate Restart)
Técnica cíclica donde la tasa de aprendizaje se reinicia periódicamente a su valor inicial, permitiendo que el modelo escape de mínimos locales y explore nuevas regiones del espacio de soluciones.