AdamW
Regularización L2 desacoplada
Separación de la disminución de pesos de la actualización del gradiente para aplicar la regularización de forma independiente del paso de optimización.
← Volver