AI 용어집
인공지능 완전 사전
Low-Rank Adaptation (LoRA)
Model adaptation method that freezes pre-trained weights and injects small decomposable low-rank matrices, enabling efficient adaptation of an LLM to new tasks with very few trainable parameters.
Parameter-Efficient Fine-Tuning (PEFT)
Training paradigm that involves tuning only a tiny fraction of parameters of a large pre-trained model, making fine-tuning accessible on consumer hardware while preserving the base model's knowledge.
Structured Pruning
Model pruning technique that removes entire coherent components (attention heads, neurons, layers) rather than individual weights, to reduce computational size while maintaining an architecture compatible with hardware accelerators.
Progressive Layer Training
Training strategy where model layers are introduced and activated sequentially, starting with a shallow network and progressively adding depth to stabilize learning and reduce initial resource requirements.
Memory-Efficient Optimizer
Optimizer variant (like Adafactor or 8-bit Adam) that reduces the memory footprint of optimizer states, avoiding storing moments for all parameters, which is crucial for training large models on limited GPUs.
Gradient Checkpointing
Computation-memory trade-off technique that omits saving intermediate activations during the forward pass, to recalculate them during the backward pass, thus drastically reducing GPU memory usage at the cost of increased computation time.
Self-Supervised Learning on Raw Corpora
Pre-training approach that leverages large amounts of unlabeled textual data by creating intrinsic prediction tasks (like word masking), enabling the building of model foundations without relying on expensive annotated data.
Instruction Tuning by Pairs
Fine-tuning method that uses pairs of examples (instruction, desired output) to align the model on a variety of tasks, improving its ability to follow directives using a limited amount of demonstration data.
Élagage de Têtes d'Attention
Spécialisation du pruning qui identifie et supprime les têtes d'attention dans les mécanismes de Transformer qui contribuent le moins à la performance du modèle, réduisant ainsi la complexité computationnelle de la couche d'auto-attention.
Distillation de Connaissances Multi-Tâches
Variante de la distillation où un modèle étudiant unique apprend à imiter les sorties d'un ensemble de modèles enseignants spécialisés dans différentes tâches, acquérant ainsi une polyvalence à faible coût computationnel.
Entraînement sur Données Synthétiques
Stratégie qui consiste à générer artificiellement de grands volumes de données d'entraînement (texte, paires question-réponse) à l'aide d'un LLM puissant, pour ensuite entraîner ou affiner un modèle plus petit, réduisant la dépendance aux données réelles.
Optimisation de la Mémoire par Activation Offloading
Technique qui déplace les activations intermédiaires de la mémoire GPU rapide vers la mémoire CPU plus lente (ou le disque) pendant l'entraînement, permettant de faire tourner des modèles plus grands que la capacité du GPU ne le permettrait normalement.
Réglage par Adaptation de Préfixe (Prefix-Tuning)
Méthode PEFT qui consiste à ne pré-entraîner qu'un petit vecteur de tokens de préfixe ajouté en entrée de chaque couche du Transformer, guidant le comportement du modèle figé pour une tâche spécifique avec un coût négligeable.
Entraînement par Accumulation de Gradient
Processus qui simule une plus grande taille de lot (batch size) en accumulant les gradients sur plusieurs passes avant avec de petits lots, avant de réaliser une unique étape de mise à jour des poids, contournant ainsi les limitations de mémoire GPU.
Compression de Vocabulaire
Technique qui réduit la taille de la couche d'embedding en fusionnant des tokens rares ou sémantiquement proches, diminuant ainsi le nombre de paramètres et la mémoire requise pour stocker les représentations de mots du modèle.
Fine-Tuning par Adversaires (Adversarial Tuning)
Approche qui utilise un modèle adverse pour générer des exemples difficiles ou des attaques, afin d'entraîner un modèle étudiant à être plus robuste et performant avec moins de données en se concentrant sur les cas limites.