Frameworks Distribués - Glosarium AI

📖

istilah

PyTorch Distributed

Module natif de PyTorch fournissant des primitives de communication collectives pour l'entraînement distribué à grande échelle. Il implémente des backend comme NCCL pour GPU, Gloo pour CPU/GPU et MPI pour une flexibilité maximale dans les environnements de calcul haute performance.

📖

istilah

Gloo

Bibliothèque de communication collective développée par Facebook pour PyTorch, supportant CPU et GPU avec différents types de réseaux. Elle offre une implémentation portable des opérations distribuées avec des optimisations spécifiques pour différentes topologies réseau.

📖

istilah

MPI

Message Passing Interface, standard de communication pour systèmes distribués à mémoire partagée ou distribuée. Il fournit des primitives point-à-point et collectives essentielles pour l'implémentation d'algorithmes parallèles dans les environnements de calcul haute performance.

📖

istilah

Worker Node

Nœud de calcul responsable de l'exécution des tâches de calcul dans une architecture distribuée, comme le calcul forward/backward et l'évaluation des gradients. Dans les frameworks ML, les workers effectuent la majeure partie du travail computationnel de l'entraînement.

📖

istilah

Master Node

Nœud coordinateur dans une architecture distribuée qui orchestre l'ensemble du processus d'entraînement et gère la distribution des tâches. Il est responsable de l'initialisation du processus, de la coordination entre workers et de la consolidation des résultats finaux.

📖

istilah

Mirror Strategy

Stratégie de distribution TensorFlow où chaque GPU maintain une copie complète des variables du modèle et synchronise les gradients après chaque étape. Cette approche combine simplicité d'implémentation et efficacité pour l'entraînement sur une seule machine multi-GPU.

📖

istilah

Multi-Worker Mirrored Strategy

Extension de la Mirrored Strategy de TensorFlow pour l'entraînement sur plusieurs machines, utilisant Collective All-Reduce pour synchroniser les gradients entre les workers. Elle combine les avantages du mirroring local avec la scalabilité multi-machine.

📖

istilah

TPUStrategy

Stratégie TensorFlow spécifiquement optimisée pour les Tensor Processing Units (TPU) de Google, exploitant leur architecture mesh pour des communications ultra-rapides. Elle permet de scaler efficacement l'entraînement sur des pods TPU contenant des centaines de cœurs.

📖

istilah

DDP (DistributedDataParallel)

Module PyTorch implémentant le parallélisme de données avec synchronisation synchrone des gradients à l'aide d'All-Reduce bucketed. Il optimise les communications en regroupant les gradients et chevauche calcul et transfert pour maximiser l'utilisation des ressources.

Glosarium AI

PyTorch Distributed

Gloo

MPI

Worker Node

Master Node

Mirror Strategy

Multi-Worker Mirrored Strategy

TPUStrategy

DDP (DistributedDataParallel)

Tidak ada hasil ditemukan