Parallélisme de Modèles
Sharded Data Parallelism
Combinaison du parallélisme de données et de la stratégie ZeRO, où les poids du modèle sont partitionnés (sharded) entre les travailleurs tout en maintenant le parallélisme de données.
← पीछे