AdamW
Normalisation adaptative
Division du gradient par la racine carrée de son moment du second ordre pour normaliser l'amplitude des mises à jour selon l'historique des gradients.
← Quay lạiDivision du gradient par la racine carrée de son moment du second ordre pour normaliser l'amplitude des mises à jour selon l'historique des gradients.
← Quay lại