AdamW
Normalização adaptativa
Divisão do gradiente pela raiz quadrada de seu momento de segunda ordem para normalizar a magnitude das atualizações de acordo com o histórico dos gradientes.
← Voltar