Seq2Seq (Sequence-to-Sequence)

📖

termes

Architecture Seq2Seq

Modèle d'apprentissage profond composé d'un encodeur et d'un décodeur conçu pour transformer des séquences de longueur variable en d'autres séquences. Cette architecture est fondamentalement utilisée pour les tâches de traduction automatique, de résumé de texte et de génération de dialogue.

📖

termes

Teacher Forcing

Stratégie d'entraînement où le décodeur reçoit les vraies valeurs précédentes comme entrée plutôt que ses propres prédictions, accélérant la convergence. Cette technique stabilise l'apprentissage mais peut créer une divergence entre entraînement et inférence connue sous le nom d'exposure bias.

📖

termes

Masking

Procédure consistant à masquer certaines positions des séquences pour éviter que le modèle ne traite des informations non pertinentes ou futures. Le masking est essentiel pour gérer les séquences de longueurs variables et empêcher la triche lors de l'entraînement auto-régressif.

📖

termes

Vecteur d'embedding

Représentation vectorielle dense de tokens discrets qui capture les relations sémantiques et syntaxiques dans un espace continu. Les embeddings sont appris pendant l'entraînement et constituent l'entrée fondamentale des modèles de traitement de séquences.

📖

termes

Gated Recurrent Unit

Variante simplifiée des LSTM utilisant deux portes (mise à jour et réinitialisation) pour réguler le flux d'information avec moins de paramètres. Les GRU offrent des performances comparables aux LSTM tout en étant plus efficaces sur le plan computationnel.

📖

termes

Greedy Search

Stratégie de décodage qui sélectionne systématiquement le token ayant la probabilité la plus élevée à chaque étape de génération. Bien que rapide, cette approche peut conduire à des solutions sous-optimales car elle ne considère pas les séquences alternatives.

📖

termes

Bi-directionnalité

Capacité de l'encodeur à traiter la séquence d'entrée dans les deux directions (avant et arrière) pour capturer le contexte complet. Les encodeurs bidirectionnels améliorent la compréhension sémantique en considérant à la fois le contexte passé et futur.

📖

termes

Embeddings de sous-mots

Technique de tokenisation qui divise les mots en unités morphologiques plus petites, permettant de gérer les mots rares et le vocabulaire ouvert. Les embeddings de sous-mots comme BPE ou WordPiece sont devenus la norme dans les modèles modernes.

Glossaire IA

Architecture Seq2Seq

Teacher Forcing

Masking

Vecteur d'embedding

Gated Recurrent Unit

Greedy Search

Bi-directionnalité

Embeddings de sous-mots

Aucun résultat trouvé