Glossario IA
Il dizionario completo dell'Intelligenza Artificiale
Parameter Efficient Fine-Tuning (PEFT)
Ensemble de techniques permettant d'adapter des modèles pré-entraînés en ne modifiant qu'un petit sous-ensemble de paramètres, réduisant ainsi les coûts computationnels.
LoRA (Low-Rank Adaptation)
Méthode PEFT injectant des matrices de faible rang dans les couches Transformer, permettant un fine-tuning efficace avec seulement 0.1% des paramètres originaux.
Adapters
Modules neuronaux légers insérés entre les couches Transformer, entraînables indépendamment pour adapter le modèle à de nouvelles tâches sans modifier les poids originaux.
Flash Attention
Implémentation algorithmique exacte de l'attention optimisée pour les GPU modernes, éliminant les lectures/écritures mémoire redondantes pour accélérer l'entraînement.
Dynamic Token Pruning
Technique adaptative supprimant sélectivement les tokens moins pertinents pendant le forward pass pour réduire la complexité computationnelle de l'attention.
Zero Redundancy Optimizer (ZeRO)
Framework d'optimisation distribuant les états de l'optimiseur, gradients et paramètres sur plusieurs GPU pour éliminer les redondances mémoire lors de l'entraînement.
Model Parallelism
Stratégie de distribution où les différents composants d'un modèle sont placés sur différents dispositifs computationnels pour gérer des modèles dépassant la mémoire d'un seul GPU.
Pipeline Parallelism
Forme de parallélisme de modèle où les couches sont réparties sur différents GPU et traitées en pipeline pour améliorer l'utilisation des ressources.
Tensor Parallelism
Parallelism technique that divides individual weight tensors across multiple GPUs to enable training of larger layers than what a single device's memory can hold.
Gradient Accumulation
Method that simulates a larger batch size by accumulating gradients over multiple forward passes before updating the model weights.
Layer-wise Learning Rate Decay
Optimization strategy applying different learning rates based on layer depth, typically higher rates for upper layers.
Curriculum Learning
Training approach that presents examples in order of increasing difficulty, accelerating convergence and improving final performance.
Mixture of Experts (MoE)
Architecture where each token is processed by a specialized expert subset, allowing increased model capacity without linear cost increase.
Reversible Layers
Transformer layers designed to allow reconstruction of activations from outputs, eliminating the need to store intermediate activations.
Gradient Noise Injection
Regularization technique that adds Gaussian noise to gradients during training to improve generalization and avoid suboptimal local minima.
Optimizer State Sharding
Memory distribution method that partitions optimizer states across multiple GPUs to significantly reduce memory footprint during training.