Transformer Optimization

📖

个术语

Parameter Efficient Fine-Tuning (PEFT)

Ensemble de techniques permettant d'adapter des modèles pré-entraînés en ne modifiant qu'un petit sous-ensemble de paramètres, réduisant ainsi les coûts computationnels.

📖

个术语

LoRA (Low-Rank Adaptation)

Méthode PEFT injectant des matrices de faible rang dans les couches Transformer, permettant un fine-tuning efficace avec seulement 0.1% des paramètres originaux.

📖

个术语

Adapters

Modules neuronaux légers insérés entre les couches Transformer, entraînables indépendamment pour adapter le modèle à de nouvelles tâches sans modifier les poids originaux.

📖

个术语

Flash Attention

Implémentation algorithmique exacte de l'attention optimisée pour les GPU modernes, éliminant les lectures/écritures mémoire redondantes pour accélérer l'entraînement.

📖

个术语

Dynamic Token Pruning

Technique adaptative supprimant sélectivement les tokens moins pertinents pendant le forward pass pour réduire la complexité computationnelle de l'attention.

📖

个术语

Zero Redundancy Optimizer (ZeRO)

Framework d'optimisation distribuant les états de l'optimiseur, gradients et paramètres sur plusieurs GPU pour éliminer les redondances mémoire lors de l'entraînement.

📖

个术语

Model Parallelism

Stratégie de distribution où les différents composants d'un modèle sont placés sur différents dispositifs computationnels pour gérer des modèles dépassant la mémoire d'un seul GPU.

📖

个术语

Pipeline Parallelism

Forme de parallélisme de modèle où les couches sont réparties sur différents GPU et traitées en pipeline pour améliorer l'utilisation des ressources.

📖

个术语

Tensor Parallelism

Technique de parallélisme divisant les tenseurs de poids individuels entre plusieurs GPU pour permettre l'entraînement de couches plus larges que la mémoire d'un seul dispositif.

📖

个术语

Gradient Accumulation

Méthode simulant un batch size plus grand en accumulant les gradients sur plusieurs forward passes avant de mettre à jour les poids du modèle.

📖

个术语

Layer-wise Learning Rate Decay

Stratégie d'optimisation appliquant des taux d'apprentissage différents selon la profondeur des couches, généralement plus élevés pour les couches supérieures.

📖

个术语

Curriculum Learning

Approche d'entraînement présentant les exemples dans un ordre de difficulté croissante, accélérant la convergence et améliorant les performances finales.

📖

个术语

Mixture of Experts (MoE)

Architecture où chaque token est traité par un sous-ensemble expert spécialisé, permettant d'augmenter la capacité du modèle sans augmentation linéaire des coûts.

📖

个术语

Reversible Layers

Couches Transformer conçues pour permettre la reconstruction des activations à partir des sorties, éliminant le besoin de stocker les activations intermédiaires.

📖

个术语

Gradient Noise Injection

Technique de régularisation ajoutant du bruit gaussien aux gradients pendant l'entraînement pour améliorer la généralisation et éviter les minima locaux suboptimaux.

📖

个术语

Optimizer State Sharding

Méthode de distribution mémoire partitionnant les états de l'optimiseur sur plusieurs GPU pour réduire significativement l'empreinte mémoire pendant l'entraînement.

AI 词汇表