Descenso de Gradiente Estocástico
RAdam
Variante rectificada de Adam que corrige la varianza de los pesos adaptativos durante las fases iniciales de calentamiento del entrenamiento. RAdam combina las ventajas teóricas de SGD con el rendimiento práctico de Adam, ofreciendo una convergencia más estable al principio del entrenamiento.
← Volver