Optimisation et Scalabilité
FSDP (Fully Sharded Data Parallel)
Extension du data parallel où les paramètres, gradients et états de l'optimiseur sont entièrement partagés (sharded) à travers les processeurs pour minimiser l'empreinte mémoire par GPU.
← Indietro