GPT et Modèles Autorégressifs

📖

termini

Décodeur-Only

Structure de réseau de neurones composée exclusivement de blocs de décodeurs Transformer, utilisée pour les tâches de génération de texte en mode auto-régressif.

📖

termini

Pré-entraînement Autorégressif

Phase d'entraînement où le modèle apprend les probabilités conditionnelles d'une séquence en maximisant la vraisemblance de prédire chaque token donné son contexte.

📖

termini

Fine-Tuning par Instructions

Processus d'adaptation d'un modèle pré-entraîné sur un jeu de données de paires (instruction, sortie) pour améliorer sa capacité à suivre des commandes spécifiques.

📖

termini

Modèle Instruct (Instruct Model)

Variante d'un modèle de base fine-tunée pour mieux comprendre et exécuter des instructions, optimisée pour le dialogue et l'assistance conversationnelle.

📖

termini

Décodage par Recherche de Faisceau (Beam Search)

Algorithme de décodage heuristique qui maintient un ensemble de 'k' séquences candidates les plus probables à chaque étape pour améliorer la cohérence de la génération.

📖

termini

Échantillonnage Noyau (Nucleus Sampling / Top-p)

Technique d'échantillonnage qui restreint le choix du token suivant à un ensemble de tokens dont la probabilité cumulée dépasse un seuil 'p', équilibrant diversité et cohérence.

📖

termini

Température de Décodage

Paramètre contrôlant le caractère aléatoire de la génération en divisant les logits avant l'application de la fonction softmax, où une valeur élevée augmente la créativité.

📖

termini

Positional Encoding Absolu

Méthode d'incorporation de la position d'un token dans une séquence, utilisant des vecteurs sinusoïdaux fixes ou appris, essentielle pour les modèles autorégressifs.

📖

termini

Cache KV (Key-Value Cache)

Optimisation computationnelle qui stocke les clés et valeurs des tokens précédents pour éviter de recalculer les états d'attention lors de la génération auto-régressive séquentielle.

📖

termini

Few-Shot Learning (In-Context Learning)

Capacité d'un modèle à apprendre une nouvelle tâche à partir de quelques exemples fournis directement dans le contexte du prompt, sans mise à jour des poids du réseau.

📖

termini

Biais d'Exposition (Exposure Bias)

Phénomène où les modèles autorégressifs, entraînés à prédire le token suivant à partir de données réelles, accumulent des erreurs lors de l'inféquence car ils sont exposés à leurs propres prédictions erronées.

Glossario IA

Décodeur-Only

Pré-entraînement Autorégressif

Fine-Tuning par Instructions

Modèle Instruct (Instruct Model)

Décodage par Recherche de Faisceau (Beam Search)

Échantillonnage Noyau (Nucleus Sampling / Top-p)

Température de Décodage

Positional Encoding Absolu

Cache KV (Key-Value Cache)

Few-Shot Learning (In-Context Learning)

Biais d'Exposition (Exposure Bias)

Nessun risultato trovato