YZ Sözlüğü
Yapay Zekanın tam sözlüğü
T5 (Text-to-Text Transfer Transformer)
Unified framework where all NLP tasks are converted to text-to-text format, pre-trained with span corruption and reconstruction of original content.
RoBERTa (Robustly Optimized BERT Pretraining Approach)
Improved version of BERT eliminating the NSP objective, using dynamic masking and larger training datasets with optimized hyperparameters.
ELECTRA (Efficiently Learning an Encoder that Classifies Token Replacements)
Two-step pre-training approach where a generator replaces tokens and a discriminator identifies replaced tokens, more efficient than traditional MLM.
ALBERT (A Lite BERT)
Optimized version of BERT reducing parameters through parameter sharing between layers and embedding matrix factorization, with additional sentence-order prediction.
XLNet
Model combining autoregression and bidirectional modeling via permutation of probability factors, overcoming BERT's limitations with complete context dependency.
SpanBERT
BERT extension optimized for predicting continuous spans of tokens rather than individual tokens, improving performance on span selection tasks.
DeBERTa (Decoding-enhanced BERT)
BERT improvement introducing attention decomposition into content and position, as well as enhanced masked attention for better semantic representation.
DistilBERT
Distilled version of BERT reducing the number of parameters by 40% while retaining 97% of performance, using knowledge distillation during pre-training.
BART (Bidirectional and Auto-Regressive Transformers)
Modèle de séquence-à-séquence utilisant encodeur-décodeur Transformer avec débruitage de texte comme objectif de pré-entraînement, combinant caractéristiques de BERT et GPT.
UniLM (Unified Language Model)
Framework unifié pré-entraîné avec différentes directions de prédiction (causale, bidirectionnelle, séquence-à-séquence) en utilisant des masques de contrôle spécifiques.
ERNIE (Enhanced Representation through kNowledge IntEgration)
Série de modèles intégrant des connaissances externes et des entités dans le pré-entraînement, utilisant le masquage multi-granulaire au niveau token, phrase et entité.
Permutation Language Modeling
Technique de pré-entraînement où les facteurs de prédiction sont permutés pour permettre au modèle d'apprendre des dépendances bidirectionnelles sans masquage explicite.
Denoising Auto-Encoding
Objectif de pré-entraînement consistant à corrompre le texte d'entrée avec divers bruits (suppression, permutation, remplacement) et à entraîner le modèle à reconstruire le texte original.