Optimisation et Scalabilité
FSDP (Fully Sharded Data Parallel)
Extensión del data paralel donde los parámetros, gradientes y estados del optimizador están completamente fragmentados (sharded) a través de los procesadores para minimizar la huella de memoria por GPU.
← Volver