KI-Glossar
Das vollständige Wörterbuch der Künstlichen Intelligenz
Normalisation de Couche
Technique de régularisation stabilisant l'entraînement en normalisant les activations de chaque couche, appliquée avant ou après les sous-couches d'attention et feed-forward.
Mécanisme de Masquage
Procédure empêchant les positions d'attendre aux tokens futurs lors du décodage auto-régressif, et/ou de traiter les tokens de padding dans les séquences de longueur variable.
Projection Query-Key-Value
Transformation linéaire des embeddings d'entrée en trois matrices distinctes (Q, K, V) utilisées pour calculer les poids d'attention selon la formule softmax(QK^T/√d_k)V.
Positional Encoding Sinusoïdal
Méthode d'encodage positionnel utilisant des fonctions sinusoïdales de différentes fréquences, permettant au modèle d'extrapoler à des longueurs de séquence non vues.
Architecture Encodeur-Seulement
Variante Transformer utilisant uniquement la pile d'encodeurs, conçue pour des tâches de compréhension comme la classification ou l'analyse de sentiments (ex: BERT).
Architecture Décodeur-Seulement
Variante Transformer utilisant uniquement la pile de décodeurs avec masquage causal, optimisée pour la génération de texte auto-régressive (ex: GPT).
Effet Quadratique
Complexité computationnelle et mémoire O(n²) de l'attention standard par rapport à la longueur de séquence n, constituant la principale limitation des Transformers.