🏠 Trang chủ
Benchmark
📊 Tất cả benchmark 🦖 Khủng long v1 🦖 Khủng long v2 ✅ Ứng dụng To-Do List 🎨 Trang tự do sáng tạo 🎯 FSACB - Trình diễn cuối cùng 🌍 Benchmark dịch thuật
Mô hình
🏆 Top 10 mô hình 🆓 Mô hình miễn phí 📋 Tất cả mô hình ⚙️ Kilo Code
Tài nguyên
💬 Thư viện prompt 📖 Thuật ngữ AI 🔗 Liên kết hữu ích

Thuật ngữ AI

Từ điển đầy đủ về Trí tuệ nhân tạo

162
danh mục
2.032
danh mục con
23.060
thuật ngữ
📖
thuật ngữ

Parameter Efficient Fine-Tuning (PEFT)

Ensemble de techniques permettant d'adapter des modèles pré-entraînés en ne modifiant qu'un petit sous-ensemble de paramètres, réduisant ainsi les coûts computationnels.

📖
thuật ngữ

LoRA (Low-Rank Adaptation)

Méthode PEFT injectant des matrices de faible rang dans les couches Transformer, permettant un fine-tuning efficace avec seulement 0.1% des paramètres originaux.

📖
thuật ngữ

Adapters

Modules neuronaux légers insérés entre les couches Transformer, entraînables indépendamment pour adapter le modèle à de nouvelles tâches sans modifier les poids originaux.

📖
thuật ngữ

Flash Attention

Implémentation algorithmique exacte de l'attention optimisée pour les GPU modernes, éliminant les lectures/écritures mémoire redondantes pour accélérer l'entraînement.

📖
thuật ngữ

Dynamic Token Pruning

Technique adaptative supprimant sélectivement les tokens moins pertinents pendant le forward pass pour réduire la complexité computationnelle de l'attention.

📖
thuật ngữ

Zero Redundancy Optimizer (ZeRO)

Framework d'optimisation distribuant les états de l'optimiseur, gradients et paramètres sur plusieurs GPU pour éliminer les redondances mémoire lors de l'entraînement.

📖
thuật ngữ

Model Parallelism

Stratégie de distribution où les différents composants d'un modèle sont placés sur différents dispositifs computationnels pour gérer des modèles dépassant la mémoire d'un seul GPU.

📖
thuật ngữ

Pipeline Parallelism

Forme de parallélisme de modèle où les couches sont réparties sur différents GPU et traitées en pipeline pour améliorer l'utilisation des ressources.

📖
thuật ngữ

Tensor Parallelism

Parallelism technique that divides individual weight tensors across multiple GPUs to enable training of larger layers than what a single device's memory can hold.

📖
thuật ngữ

Gradient Accumulation

Method that simulates a larger batch size by accumulating gradients over multiple forward passes before updating the model weights.

📖
thuật ngữ

Layer-wise Learning Rate Decay

Optimization strategy applying different learning rates based on layer depth, typically higher rates for upper layers.

📖
thuật ngữ

Curriculum Learning

Training approach that presents examples in order of increasing difficulty, accelerating convergence and improving final performance.

📖
thuật ngữ

Mixture of Experts (MoE)

Architecture where each token is processed by a specialized expert subset, allowing increased model capacity without linear cost increase.

📖
thuật ngữ

Reversible Layers

Transformer layers designed to allow reconstruction of activations from outputs, eliminating the need to store intermediate activations.

📖
thuật ngữ

Gradient Noise Injection

Regularization technique that adds Gaussian noise to gradients during training to improve generalization and avoid suboptimal local minima.

📖
thuật ngữ

Optimizer State Sharding

Memory distribution method that partitions optimizer states across multiple GPUs to significantly reduce memory footprint during training.

🔍

Không tìm thấy kết quả