AdamW
Normalisation adaptative
Division du gradient par la racine carrée de son moment du second ordre pour normaliser l'amplitude des mises à jour selon l'historique des gradients.
← ZurückDivision du gradient par la racine carrée de son moment du second ordre pour normaliser l'amplitude des mises à jour selon l'historique des gradients.
← Zurück