🏠 Accueil
基準測試
📊 Tous les Benchmarks 🦖 Dinosaure v1 🦖 Dinosaure v2 ✅ To-Do List Apps 🎨 Pages Libres 🎯 FSACB - Showcase 🌍 Traduction
Modèles
🏆 Top 10 Modèles 🆓 Modèles Gratuits 📋 Tous les Modèles ⚙️ Modes Kilo Code
Ressources
💬 Prompts IA 📖 人工智能詞彙表 🔗 Liens Utiles

AI 詞彙表

人工智能完整詞典

200
類別
2,608
子類別
30,011
術語
📖
術語

Parameter Efficient Fine-Tuning (PEFT)

Ensemble de techniques permettant d'adapter des modèles pré-entraînés en ne modifiant qu'un petit sous-ensemble de paramètres, réduisant ainsi les coûts computationnels.

📖
術語

LoRA (Low-Rank Adaptation)

Méthode PEFT injectant des matrices de faible rang dans les couches Transformer, permettant un fine-tuning efficace avec seulement 0.1% des paramètres originaux.

📖
術語

Adapters

Modules neuronaux légers insérés entre les couches Transformer, entraînables indépendamment pour adapter le modèle à de nouvelles tâches sans modifier les poids originaux.

📖
術語

Flash Attention

Implémentation algorithmique exacte de l'attention optimisée pour les GPU modernes, éliminant les lectures/écritures mémoire redondantes pour accélérer l'entraînement.

📖
術語

Dynamic Token Pruning

Technique adaptative supprimant sélectivement les tokens moins pertinents pendant le forward pass pour réduire la complexité computationnelle de l'attention.

📖
術語

Zero Redundancy Optimizer (ZeRO)

Framework d'optimisation distribuant les états de l'optimiseur, gradients et paramètres sur plusieurs GPU pour éliminer les redondances mémoire lors de l'entraînement.

📖
術語

Model Parallelism

Stratégie de distribution où les différents composants d'un modèle sont placés sur différents dispositifs computationnels pour gérer des modèles dépassant la mémoire d'un seul GPU.

📖
術語

Pipeline Parallelism

Forme de parallélisme de modèle où les couches sont réparties sur différents GPU et traitées en pipeline pour améliorer l'utilisation des ressources.

📖
術語

Tensor Parallelism

Technique de parallélisme divisant les tenseurs de poids individuels entre plusieurs GPU pour permettre l'entraînement de couches plus larges que la mémoire d'un seul dispositif.

📖
術語

Gradient Accumulation

Méthode simulant un batch size plus grand en accumulant les gradients sur plusieurs forward passes avant de mettre à jour les poids du modèle.

📖
術語

Layer-wise Learning Rate Decay

Stratégie d'optimisation appliquant des taux d'apprentissage différents selon la profondeur des couches, généralement plus élevés pour les couches supérieures.

📖
術語

Curriculum Learning

Approche d'entraînement présentant les exemples dans un ordre de difficulté croissante, accélérant la convergence et améliorant les performances finales.

📖
術語

Mixture of Experts (MoE)

Architecture où chaque token est traité par un sous-ensemble expert spécialisé, permettant d'augmenter la capacité du modèle sans augmentation linéaire des coûts.

📖
術語

Reversible Layers

Couches Transformer conçues pour permettre la reconstruction des activations à partir des sorties, éliminant le besoin de stocker les activations intermédiaires.

📖
術語

Gradient Noise Injection

Technique de régularisation ajoutant du bruit gaussien aux gradients pendant l'entraînement pour améliorer la généralisation et éviter les minima locaux suboptimaux.

📖
術語

Optimizer State Sharding

Méthode de distribution mémoire partitionnant les états de l'optimiseur sur plusieurs GPU pour réduire significativement l'empreinte mémoire pendant l'entraînement.

🔍

搵唔到結果