Glosario IA
El diccionario completo de la Inteligencia Artificial
Primer momento
Media móvil exponencial de los gradientes en Adam, que representa la estimación del primer momento estadístico (la media) que guía la dirección de actualización de los parámetros.
Segundo momento
Media móvil exponencial de los cuadrados de los gradientes en Adam, que representa la estimación del segundo momento estadístico no centrado (la varianza no centrada) que adapta la magnitud de las actualizaciones.
Beta1
Hiperparámetro de Adam que controla la tasa de decaimiento exponencial para la media móvil del primer momento (gradiente), típicamente fijado en 0.9 para equilibrar novedad e historial.
Beta2
Hiperparámetro de Adam que controla la tasa de decaimiento exponencial para la media móvil del segundo momento (cuadrado del gradiente), típicamente fijado en 0.999 para una estimación estable de la varianza.
AMSGrad
Modificación de Adam que mantiene el máximo de las estimaciones del segundo momento para garantizar una convergencia teórica, evitando aumentos no monótonos de las tasas de aprendizaje efectivas.
Decaimiento programado
Estrategia de reducción progresiva de la tasa de aprendizaje en Adam, a menudo utilizada para refinar la convergencia en las últimas fases de entrenamiento al reducir el tamaño de los pasos.