এআই গ্লসারি
কৃত্রিম বুদ্ধিমত্তার সম্পূর্ণ অভিধান
Sequence Parallelism
Forme de parallélisme qui divise la dimension de séquence des tenseurs d'entrée sur plusieurs accélérateurs, utilisée pour les modèles de type Transformer avec de longues séquences.
Expert Parallelism
Technique spécifique aux modèles denses à mélange d'experts (MoE) où les différents réseaux d'experts sont distribués sur des accélérateurs distincts pour équilibrer la charge de calcul.
Sharded Data Parallelism
Combinaison du parallélisme de données et de la stratégie ZeRO, où les poids du modèle sont partitionnés (sharded) entre les travailleurs tout en maintenant le parallélisme de données.
Activation Checkpointing
Technique de mémoire qui consiste à ne pas stocker les activations intermédiaires pendant la passe avant, mais à les recalculer lors de la passe arrière pour économiser la mémoire GPU.
Hybrid Parallelism
Approche combinant plusieurs stratégies de parallélisme (ex: tensor, pipeline et data) pour maximiser l'utilisation des ressources et scaler l'entraînement sur des milliers d'accélérateurs.
All-Reduce Communication
Opération de communication collective essentielle au parallélisme de données, où les gradients locaux de chaque accélérateur sont agrégés et redistribués pour synchroniser les poids du modèle.
Tensor Slicing
Opération fondamentale du parallélisme de tenseur consistant à diviser un tenseur le long d'une dimension spécifique (ex: ligne, colonne) pour le distribuer sur plusieurs appareils.
GPipe
Implémentation de parallélisme de pipeline qui utilise le micro-batching et le checkpointing des activations pour entraîner efficacement de très grands réseaux de neurones.
Megatron-LM
এনভিডিয়া দ্বারা উন্নত টেনসর সমান্তরালতা আর্কিটেকচার, যা ওজন ম্যাট্রিক্স এবং গ্রেডিয়েন্টগুলিকে বিভাজন করে বিশাল ভাষা মডেলগুলিকে প্রশিক্ষণ দেওয়ার জন্য ডিজাইন করা হয়েছে।
DeepSpeed
মাইক্রোসফটের অপ্টিমাইজেশন লাইব্রেরি যা ZeRO, হাইব্রিড সমান্তরালতা এবং বৃহৎ আকারের মডেল প্রশিক্ষণের জন্য মেমরি কম্প্রেশনের মতো উন্নত কৌশলগুলি বাস্তবায়ন করে।
Offloading
মেমরি ব্যবস্থাপনার একটি কৌশল যেখানে ডেটা (ওজন, গ্রেডিয়েন্ট, অ্যাক্টিভেশন) দ্রুত GPU মেমরি এবং ধীর কিন্তু বৃহত্তর CPU মেমরির মধ্যে গতিশীলভাবে স্থানান্তরিত হয়।