AdamW
Normalización adaptativa
División del gradiente por la raíz cuadrada de su momento de segundo orden para normalizar la magnitud de las actualizaciones según el historial de gradientes.
← Volver