Glosario IA
El diccionario completo de la Inteligencia Artificial
Fine-Tuning à Faible Rang (LoRA)
Méthode d'adaptation de modèle qui gèle les poids pré-entraînés et injecte de petites matrices décomposables en rang réduit, permettant d'adapter efficacement un LLM à de nouvelles tâches avec très peu de paramètres entraînables.
Entraînement par Efficacité de Paramètres (PEFT)
Paradigme d'entraînement qui consiste à n'ajuster qu'une fraction infime des paramètres d'un grand modèle pré-entraîné, rendant le fine-tuning accessible sur des matériels grand public tout en préservant les connaissances du modèle de base.
Pruning Structuré
Technique d'élagage de modèle qui supprime des composants entiers et cohérents (têtes d'attention, neurones, couches) plutôt que des poids individuels, afin de réduire la taille computationnelle tout en maintenant une architecture compatible avec les accélérateurs matériels.
Entraînement Progressif des Couches
Stratégie d'entraînement où les couches du modèle sont introduites et activées séquentiellement, commençant par un réseau peu profond et ajoutant progressivement de la profondeur pour stabiliser l'apprentissage et réduire les besoins en ressources initiales.
Optimiseur Mémoire-Efficace (Memory-Efficient Optimizer)
Variante d'optimiseur (comme Adafactor ou 8-bit Adam) qui réduit l'empreinte mémoire des états de l'optimiseur, en évitant de stocker des moments pour tous les paramètres, ce qui est crucial pour entraîner de grands modèles sur des GPU limités.
Vérification de Gradient (Gradient Checkpointing)
Technique de compromis calcul-mémoire qui omet de sauvegarder les activations intermédiaires pendant la passe avant, pour les recalculer pendant la passe arrière, réduisant ainsi drastiquement l'utilisation de la mémoire GPU au prix d'un temps de calcul accru.
Apprentissage Auto-Supervisé sur Corpus Bruts
Approche pré-entraînement qui tire parti de vastes quantités de données textuelles non étiquetées en créant des tâches de prédiction intrinsèques (comme le masquage de mots), permettant de construire des fondations de modèle sans dépendre de données annotées coûteuses.
Réglage d'Instructions par Paires (Instruction Tuning by Pairs)
Méthode de fine-tuning qui utilise des paires d'exemples (instruction, sortie souhaitée) pour aligner le modèle sur une variété de tâches, améliorant sa capacité à suivre des directives en utilisant un nombre limité de données démonstratives.
Élagage de Têtes d'Attention
Spécialisation du pruning qui identifie et supprime les têtes d'attention dans les mécanismes de Transformer qui contribuent le moins à la performance du modèle, réduisant ainsi la complexité computationnelle de la couche d'auto-attention.
Distillation de Connaissances Multi-Tâches
Variante de la distillation où un modèle étudiant unique apprend à imiter les sorties d'un ensemble de modèles enseignants spécialisés dans différentes tâches, acquérant ainsi une polyvalence à faible coût computationnel.
Entraînement sur Données Synthétiques
Stratégie qui consiste à générer artificiellement de grands volumes de données d'entraînement (texte, paires question-réponse) à l'aide d'un LLM puissant, pour ensuite entraîner ou affiner un modèle plus petit, réduisant la dépendance aux données réelles.
Optimisation de la Mémoire par Activation Offloading
Technique qui déplace les activations intermédiaires de la mémoire GPU rapide vers la mémoire CPU plus lente (ou le disque) pendant l'entraînement, permettant de faire tourner des modèles plus grands que la capacité du GPU ne le permettrait normalement.
Réglage par Adaptation de Préfixe (Prefix-Tuning)
Méthode PEFT qui consiste à ne pré-entraîner qu'un petit vecteur de tokens de préfixe ajouté en entrée de chaque couche du Transformer, guidant le comportement du modèle figé pour une tâche spécifique avec un coût négligeable.
Entraînement par Accumulation de Gradient
Processus qui simule une plus grande taille de lot (batch size) en accumulant les gradients sur plusieurs passes avant avec de petits lots, avant de réaliser une unique étape de mise à jour des poids, contournant ainsi les limitations de mémoire GPU.
Compression de Vocabulaire
Technique qui réduit la taille de la couche d'embedding en fusionnant des tokens rares ou sémantiquement proches, diminuant ainsi le nombre de paramètres et la mémoire requise pour stocker les représentations de mots du modèle.
Fine-Tuning par Adversaires (Adversarial Tuning)
Approche qui utilise un modèle adverse pour générer des exemples difficiles ou des attaques, afin d'entraîner un modèle étudiant à être plus robuste et performant avec moins de données en se concentrant sur les cas limites.