Glossaire IA
Le dictionnaire complet de l'Intelligence Artificielle
Sequence Parallelism
Forme de parallélisme qui divise la dimension de séquence des tenseurs d'entrée sur plusieurs accélérateurs, utilisée pour les modèles de type Transformer avec de longues séquences.
Expert Parallelism
Technique spécifique aux modèles denses à mélange d'experts (MoE) où les différents réseaux d'experts sont distribués sur des accélérateurs distincts pour équilibrer la charge de calcul.
Sharded Data Parallelism
Combinaison du parallélisme de données et de la stratégie ZeRO, où les poids du modèle sont partitionnés (sharded) entre les travailleurs tout en maintenant le parallélisme de données.
Activation Checkpointing
Technique de mémoire qui consiste à ne pas stocker les activations intermédiaires pendant la passe avant, mais à les recalculer lors de la passe arrière pour économiser la mémoire GPU.
Hybrid Parallelism
Approche combinant plusieurs stratégies de parallélisme (ex: tensor, pipeline et data) pour maximiser l'utilisation des ressources et scaler l'entraînement sur des milliers d'accélérateurs.
All-Reduce Communication
Opération de communication collective essentielle au parallélisme de données, où les gradients locaux de chaque accélérateur sont agrégés et redistribués pour synchroniser les poids du modèle.
Tensor Slicing
Opération fondamentale du parallélisme de tenseur consistant à diviser un tenseur le long d'une dimension spécifique (ex: ligne, colonne) pour le distribuer sur plusieurs appareils.
GPipe
Implémentation de parallélisme de pipeline qui utilise le micro-batching et le checkpointing des activations pour entraîner efficacement de très grands réseaux de neurones.
Megatron-LM
Architecture de parallélisme de tenseur développée par NVIDIA, conçue pour entraîner des modèles de langage massifs en partitionnant les matrices de poids et les gradients.
DeepSpeed
Bibliothèque d'optimisation de Microsoft implémentant des techniques avancées comme ZeRO, le parallélisme hybride et le compression de mémoire pour l'entraînement de modèles à grande échelle.
Offloading
Stratégie de gestion mémoire où les données (poids, gradients, activations) sont déplacées dynamiquement entre la mémoire GPU rapide et la mémoire CPU plus lente mais plus vaste.