एआई शब्दावली
आर्टिफिशियल इंटेलिजेंस का पूर्ण शब्दकोश
DistilBERT (Distilled BERT)
Version allégée de BERT créée par distillation de connaissances, conservant 97% des performances de BERT base avec seulement 40% des paramètres pour une inference plus rapide.
Positional Embeddings
Vecteurs ajoutés aux embeddings de tokens dans BERT pour encoder la position séquentielle, essentiels puisque l'attention seule ne capture pas l'ordre des tokens.
BERT-base vs BERT-large
Deux configurations principales de BERT : base (12 couches, 768 dimensions cachées, 110M paramètres) et large (24 couches, 1024 dimensions, 340M paramètres) pour différents compromis performance/ressources.
Fine-tuning BERT
Processus d'adaptation des poids de BERT pré-entraînés à des tâches spécifiques en ajoutant des couches de classification et en entraînant sur des données étiquetées de la tâche cible.
[SEP] Token
Token spécial utilisé dans BERT pour séparer différentes segments de texte (comme les paires de phrases dans les tâches QA ou NSP), marquant les limites entre segments.
Pre-training Objectives
Tâches auto-supervisées (MLM et NSP) utilisées pour pré-entraîner BERT sur de vastes corpus non étiquetés, permettant l'apprentissage de représentations linguistiques générales.
Transformer Encoder Stack
Architecture fondamentale de BERT composée de multiples couches encodeurs Transformer, chacune avec des mécanismes d'attention multi-têtes et des réseaux feed-forward.
Domain-specific BERT
Variantes de BERT pré-entraînées sur des corpus spécialisés (BioBERT pour biomédical, SciBERT pour scientifique, FinBERT pour financier) pour de meilleures performances dans ces domaines.
Multilingual BERT (mBERT)
Version de BERT pré-entraînée sur 104 langues avec un vocabulaire partagé, capable de comprendre et de traiter du texte dans plusieurs langues avec un seul modèle.
BERTology
Champ de recherche consacré à l'analyse, l'interprétation et l'amélioration des modèles de type BERT, étudiant leurs comportements internes et leurs capacités linguistiques.