Optimización basada en el momento
LARS
Layer-wise Adaptive Rate Scaling que adapta la tasa de aprendizaje por capa en función de la relación entre la norma L2 de los pesos y los gradientes para entrenamientos a gran escala.
← Volver