Parallélisme de Modèles

📖

termes

Sequence Parallelism

Forme de parallélisme qui divise la dimension de séquence des tenseurs d'entrée sur plusieurs accélérateurs, utilisée pour les modèles de type Transformer avec de longues séquences.

📖

termes

Expert Parallelism

Technique spécifique aux modèles denses à mélange d'experts (MoE) où les différents réseaux d'experts sont distribués sur des accélérateurs distincts pour équilibrer la charge de calcul.

📖

termes

Sharded Data Parallelism

Combinaison du parallélisme de données et de la stratégie ZeRO, où les poids du modèle sont partitionnés (sharded) entre les travailleurs tout en maintenant le parallélisme de données.

📖

termes

Activation Checkpointing

Technique de mémoire qui consiste à ne pas stocker les activations intermédiaires pendant la passe avant, mais à les recalculer lors de la passe arrière pour économiser la mémoire GPU.

📖

termes

Hybrid Parallelism

Approche combinant plusieurs stratégies de parallélisme (ex: tensor, pipeline et data) pour maximiser l'utilisation des ressources et scaler l'entraînement sur des milliers d'accélérateurs.

📖

termes

All-Reduce Communication

Opération de communication collective essentielle au parallélisme de données, où les gradients locaux de chaque accélérateur sont agrégés et redistribués pour synchroniser les poids du modèle.

📖

termes

Tensor Slicing

Opération fondamentale du parallélisme de tenseur consistant à diviser un tenseur le long d'une dimension spécifique (ex: ligne, colonne) pour le distribuer sur plusieurs appareils.

📖

termes

GPipe

Implémentation de parallélisme de pipeline qui utilise le micro-batching et le checkpointing des activations pour entraîner efficacement de très grands réseaux de neurones.

📖

termes

Megatron-LM

Architecture de parallélisme de tenseur développée par NVIDIA, conçue pour entraîner des modèles de langage massifs en partitionnant les matrices de poids et les gradients.

📖

termes

DeepSpeed

Bibliothèque d'optimisation de Microsoft implémentant des techniques avancées comme ZeRO, le parallélisme hybride et le compression de mémoire pour l'entraînement de modèles à grande échelle.

📖

termes

Offloading

Stratégie de gestion mémoire où les données (poids, gradients, activations) sont déplacées dynamiquement entre la mémoire GPU rapide et la mémoire CPU plus lente mais plus vaste.

Glossaire IA

Sequence Parallelism

Expert Parallelism

Sharded Data Parallelism

Activation Checkpointing

Hybrid Parallelism

All-Reduce Communication

Tensor Slicing

GPipe

Megatron-LM

DeepSpeed

Offloading

Aucun résultat trouvé