Otimização e Escalabilidade
FSDP (Fully Sharded Data Parallel)
Extensão do data parallel onde os parâmetros, gradientes e estados do otimizador são totalmente compartilhados (sharded) entre os processadores para minimizar a pegada de memória por GPU.
← Voltar