Optimización de Transformers
Decaimiento de Tasa de Aprendizaje por Capa
Estrategia de optimización que aplica tasas de aprendizaje diferentes según la profundidad de las capas, generalmente más altas para las capas superiores.
← Volver