AdamW
Régularisation L2 découplée
Séparation de la décroissance des poids de la mise à jour du gradient pour appliquer la régularisation de manière indépendante de l'étape d'optimisation.
← GeriSéparation de la décroissance des poids de la mise à jour du gradient pour appliquer la régularisation de manière indépendante de l'étape d'optimisation.
← Geri