Glosarium AI
Kamus lengkap Kecerdasan Buatan
PyTorch Distributed
Module natif de PyTorch fournissant des primitives de communication collectives pour l'entraînement distribué à grande échelle. Il implémente des backend comme NCCL pour GPU, Gloo pour CPU/GPU et MPI pour une flexibilité maximale dans les environnements de calcul haute performance.
Gloo
Bibliothèque de communication collective développée par Facebook pour PyTorch, supportant CPU et GPU avec différents types de réseaux. Elle offre une implémentation portable des opérations distribuées avec des optimisations spécifiques pour différentes topologies réseau.
MPI
Message Passing Interface, standard de communication pour systèmes distribués à mémoire partagée ou distribuée. Il fournit des primitives point-à-point et collectives essentielles pour l'implémentation d'algorithmes parallèles dans les environnements de calcul haute performance.
Worker Node
Nœud de calcul responsable de l'exécution des tâches de calcul dans une architecture distribuée, comme le calcul forward/backward et l'évaluation des gradients. Dans les frameworks ML, les workers effectuent la majeure partie du travail computationnel de l'entraînement.
Master Node
Nœud coordinateur dans une architecture distribuée qui orchestre l'ensemble du processus d'entraînement et gère la distribution des tâches. Il est responsable de l'initialisation du processus, de la coordination entre workers et de la consolidation des résultats finaux.
Mirror Strategy
Stratégie de distribution TensorFlow où chaque GPU maintain une copie complète des variables du modèle et synchronise les gradients après chaque étape. Cette approche combine simplicité d'implémentation et efficacité pour l'entraînement sur une seule machine multi-GPU.
Multi-Worker Mirrored Strategy
Extension de la Mirrored Strategy de TensorFlow pour l'entraînement sur plusieurs machines, utilisant Collective All-Reduce pour synchroniser les gradients entre les workers. Elle combine les avantages du mirroring local avec la scalabilité multi-machine.
TPUStrategy
Stratégie TensorFlow spécifiquement optimisée pour les Tensor Processing Units (TPU) de Google, exploitant leur architecture mesh pour des communications ultra-rapides. Elle permet de scaler efficacement l'entraînement sur des pods TPU contenant des centaines de cœurs.
DDP (DistributedDataParallel)
Module PyTorch implémentant le parallélisme de données avec synchronisation synchrone des gradients à l'aide d'All-Reduce bucketed. Il optimise les communications en regroupant les gradients et chevauche calcul et transfert pour maximiser l'utilisation des ressources.