Descida de Gradiente Estocástica
RAdam
Variante retificada do Adam que corrige a variância dos pesos adaptativos durante as fases iniciais de aquecimento do treinamento. RAdam combina as vantagens teóricas do SGD com o desempenho prático do Adam, oferecendo uma convergência mais estável no início do treinamento.
← Voltar