মডেল প্যারালেলিজম - কৃত্রিম বুদ্ধিমত্তা শব্দাবলী

📖

শব্দ

Sequence Parallelism

Forme de parallélisme qui divise la dimension de séquence des tenseurs d'entrée sur plusieurs accélérateurs, utilisée pour les modèles de type Transformer avec de longues séquences.

📖

শব্দ

Expert Parallelism

Technique spécifique aux modèles denses à mélange d'experts (MoE) où les différents réseaux d'experts sont distribués sur des accélérateurs distincts pour équilibrer la charge de calcul.

📖

শব্দ

Sharded Data Parallelism

Combinaison du parallélisme de données et de la stratégie ZeRO, où les poids du modèle sont partitionnés (sharded) entre les travailleurs tout en maintenant le parallélisme de données.

📖

শব্দ

Activation Checkpointing

Technique de mémoire qui consiste à ne pas stocker les activations intermédiaires pendant la passe avant, mais à les recalculer lors de la passe arrière pour économiser la mémoire GPU.

📖

শব্দ

Hybrid Parallelism

Approche combinant plusieurs stratégies de parallélisme (ex: tensor, pipeline et data) pour maximiser l'utilisation des ressources et scaler l'entraînement sur des milliers d'accélérateurs.

📖

শব্দ

All-Reduce Communication

Opération de communication collective essentielle au parallélisme de données, où les gradients locaux de chaque accélérateur sont agrégés et redistribués pour synchroniser les poids du modèle.

📖

শব্দ

Tensor Slicing

Opération fondamentale du parallélisme de tenseur consistant à diviser un tenseur le long d'une dimension spécifique (ex: ligne, colonne) pour le distribuer sur plusieurs appareils.

📖

শব্দ

GPipe

Implémentation de parallélisme de pipeline qui utilise le micro-batching et le checkpointing des activations pour entraîner efficacement de très grands réseaux de neurones.

📖

শব্দ

Megatron-LM

এনভিডিয়া দ্বারা উন্নত টেনসর সমান্তরালতা আর্কিটেকচার, যা ওজন ম্যাট্রিক্স এবং গ্রেডিয়েন্টগুলিকে বিভাজন করে বিশাল ভাষা মডেলগুলিকে প্রশিক্ষণ দেওয়ার জন্য ডিজাইন করা হয়েছে।

📖

শব্দ

DeepSpeed

মাইক্রোসফটের অপ্টিমাইজেশন লাইব্রেরি যা ZeRO, হাইব্রিড সমান্তরালতা এবং বৃহৎ আকারের মডেল প্রশিক্ষণের জন্য মেমরি কম্প্রেশনের মতো উন্নত কৌশলগুলি বাস্তবায়ন করে।

📖

শব্দ

Offloading

মেমরি ব্যবস্থাপনার একটি কৌশল যেখানে ডেটা (ওজন, গ্রেডিয়েন্ট, অ্যাক্টিভেশন) দ্রুত GPU মেমরি এবং ধীর কিন্তু বৃহত্তর CPU মেমরির মধ্যে গতিশীলভাবে স্থানান্তরিত হয়।

এআই গ্লসারি

Sequence Parallelism

Expert Parallelism

Sharded Data Parallelism

Activation Checkpointing

Hybrid Parallelism

All-Reduce Communication

Tensor Slicing

GPipe

Megatron-LM

DeepSpeed

Offloading

কোন ফলাফল পাওয়া যায়নি