AI 词汇表
人工智能完整词典
Masked Language Modeling (MLM)
Objectif de pré-entraînement où 15% des tokens sont masqués aléatoirement et le modèle doit les prédire en utilisant le contexte bidirectionnel. Cette technique permet à BERT d'apprendre des représentations contextuelles profondes en forçant le modèle à comprendre les relations sémantiques entre les mots.
Next Sentence Prediction (NSP)
Tâche de pré-entraînement binaire où le modèle prédit si deux phrases données sont consécutives dans le texte original. Bien que controversée, cette objectif aide BERT à comprendre les relations inter-phrases pour des tâches comme le QA et la NLI.
WordPiece Tokenization
Algorithme de segmentation qui divise les mots en sous-unités morphologiques pour gérer le vocabulaire inconnu et optimiser la représentation. Cette approche permet à BERT de traiter efficacement les mots rares et les néologismes en les décomposant en tokens connus.
Self-Attention Mechanism
Mécanisme fondamental où chaque token calcule des poids d'attention par rapport à tous les autres tokens de la séquence. Cette opération permet à BERT de capturer des dépendances à longue distance et de créer des représentations contextuelles riches.
Segment Embeddings
Embeddings spécialisés qui distinguent différentes segments dans l'entrée, typiquement utilisés pour séparer les phrases A et B dans les tâches de paire de phrases. Ces embeddings permettent au modèle de différencier le contexte de chaque segment.
Transformer Encoder Block
Unité computationnelle fondamentale de BERT composée de multi-head attention suivie d'un réseau feed-forward avec connexions résiduelles et normalisation. Chaque bloc traite la séquence entière simultanément, préservant les relations globales.
Pooling Layer
Couche finale qui agrège les représentations des tokens en un vecteur unique pour les tâches de classification. BERT utilise typiquement la représentation du token [CLS] ou effectue un pooling moyen sur tous les tokens.
Hidden States
Représentations vectorielles de haute dimension produites à chaque couche du Transformer pour chaque token de la séquence. Ces états cachés capturent progressivement des caractéristiques sémantiques de plus en plus abstraites.
Pre-training
在大型语料库上进行无监督训练的阶段,BERT通过MLM和NSP学习通用的语言表征。此步骤在针对特定任务的微调之前,为模型奠定了知识基础。
Encoder-Only Architecture
BERT的结构仅使用Transformer的编码器块,与编码器-解码器模型不同。这种架构针对文本理解和分类任务进行了优化。
[CLS] Token
添加到每个输入序列开头的特殊标记,其最终表示用于分类任务。该标记聚合整个序列的上下文信息,以做出全局级别的决策。