Otimização baseada em Momentum
LARS
Layer-wise Adaptive Rate Scaling que adapta a taxa de aprendizado por camada com base na razão entre a norma L2 dos pesos e dos gradientes para treinamentos em larga escala.
← Voltar