Glosario IA
El diccionario completo de la Inteligencia Artificial
Regularización L2 desacoplada
Separación de la disminución de pesos de la actualización del gradiente para aplicar la regularización de forma independiente del paso de optimización.
Hiperparámetros beta1 y beta2
Coeficientes que controlan respectivamente la disminución exponencial de los momentos de primer y segundo orden en el algoritmo AdamW.
Momento de primer orden
Media móvil exponencial de los gradientes que captura la dirección promedio del descenso para acelerar la convergencia en los valles de error.
Momento de segundo orden
Media móvil exponencial de los cuadrados de los gradientes que estima la varianza para adaptar la tasa de aprendizaje según la curvatura local.
Épsilon de estabilización
Pequeña constante añadida al denominador para evitar la división por cero y asegurar la estabilidad numérica durante la normalización de los gradientes.
Convergencia asintótica
Propiedad teórica que garantiza que el algoritmo alcanza un punto crítico cuando el número de iteraciones tiende a infinito bajo ciertas condiciones.
Descomposición del gradiente
Separación vectorial del gradiente en componentes de disminución de pesos y de actualización propiamente dicha en la implementación de AdamW.
Sesgo de arranque en frío
Problema de estimación sesgada de los momentos durante las primeras iteraciones debido a la inicialización a cero, corregido por los factores de sesgo de AdamW.
Factor de decaimiento del peso
Parámetro lambda que controla la intensidad de la regularización L2 desacoplada aplicada independientemente a cada actualización de peso.
Normalización adaptativa
División del gradiente por la raíz cuadrada de su momento de segundo orden para normalizar la magnitud de las actualizaciones según el historial de gradientes.