AI 詞彙表
人工智能完整詞典
Parameter Efficient Fine-Tuning (PEFT)
Ensemble de techniques permettant d'adapter des modèles pré-entraînés en ne modifiant qu'un petit sous-ensemble de paramètres, réduisant ainsi les coûts computationnels.
LoRA (Low-Rank Adaptation)
Méthode PEFT injectant des matrices de faible rang dans les couches Transformer, permettant un fine-tuning efficace avec seulement 0.1% des paramètres originaux.
Adapters
Modules neuronaux légers insérés entre les couches Transformer, entraînables indépendamment pour adapter le modèle à de nouvelles tâches sans modifier les poids originaux.
Flash Attention
Implémentation algorithmique exacte de l'attention optimisée pour les GPU modernes, éliminant les lectures/écritures mémoire redondantes pour accélérer l'entraînement.
Dynamic Token Pruning
Technique adaptative supprimant sélectivement les tokens moins pertinents pendant le forward pass pour réduire la complexité computationnelle de l'attention.
Zero Redundancy Optimizer (ZeRO)
Framework d'optimisation distribuant les états de l'optimiseur, gradients et paramètres sur plusieurs GPU pour éliminer les redondances mémoire lors de l'entraînement.
Model Parallelism
Stratégie de distribution où les différents composants d'un modèle sont placés sur différents dispositifs computationnels pour gérer des modèles dépassant la mémoire d'un seul GPU.
Pipeline Parallelism
Forme de parallélisme de modèle où les couches sont réparties sur différents GPU et traitées en pipeline pour améliorer l'utilisation des ressources.
Tensor Parallelism
Technique de parallélisme divisant les tenseurs de poids individuels entre plusieurs GPU pour permettre l'entraînement de couches plus larges que la mémoire d'un seul dispositif.
Gradient Accumulation
Méthode simulant un batch size plus grand en accumulant les gradients sur plusieurs forward passes avant de mettre à jour les poids du modèle.
Layer-wise Learning Rate Decay
Stratégie d'optimisation appliquant des taux d'apprentissage différents selon la profondeur des couches, généralement plus élevés pour les couches supérieures.
Curriculum Learning
Approche d'entraînement présentant les exemples dans un ordre de difficulté croissante, accélérant la convergence et améliorant les performances finales.
Mixture of Experts (MoE)
Architecture où chaque token est traité par un sous-ensemble expert spécialisé, permettant d'augmenter la capacité du modèle sans augmentation linéaire des coûts.
Reversible Layers
Couches Transformer conçues pour permettre la reconstruction des activations à partir des sorties, éliminant le besoin de stocker les activations intermédiaires.
Gradient Noise Injection
Technique de régularisation ajoutant du bruit gaussien aux gradients pendant l'entraînement pour améliorer la généralisation et éviter les minima locaux suboptimaux.
Optimizer State Sharding
Méthode de distribution mémoire partitionnant les états de l'optimiseur sur plusieurs GPU pour réduire significativement l'empreinte mémoire pendant l'entraînement.