Escalado de atención
Estabilización del gradiente
Proceso destinado a mantener los gradientes en un rango numérico estable durante la retropropagación, esencial para evitar problemas de entrenamiento en redes profundas.
← Volver