BERT Architecture - AI 术语表

📖

个术语

Masked Language Modeling (MLM)

Objectif de pré-entraînement où 15% des tokens sont masqués aléatoirement et le modèle doit les prédire en utilisant le contexte bidirectionnel. Cette technique permet à BERT d'apprendre des représentations contextuelles profondes en forçant le modèle à comprendre les relations sémantiques entre les mots.

📖

个术语

Next Sentence Prediction (NSP)

Tâche de pré-entraînement binaire où le modèle prédit si deux phrases données sont consécutives dans le texte original. Bien que controversée, cette objectif aide BERT à comprendre les relations inter-phrases pour des tâches comme le QA et la NLI.

📖

个术语

WordPiece Tokenization

Algorithme de segmentation qui divise les mots en sous-unités morphologiques pour gérer le vocabulaire inconnu et optimiser la représentation. Cette approche permet à BERT de traiter efficacement les mots rares et les néologismes en les décomposant en tokens connus.

📖

个术语

Self-Attention Mechanism

Mécanisme fondamental où chaque token calcule des poids d'attention par rapport à tous les autres tokens de la séquence. Cette opération permet à BERT de capturer des dépendances à longue distance et de créer des représentations contextuelles riches.

📖

个术语

Segment Embeddings

Embeddings spécialisés qui distinguent différentes segments dans l'entrée, typiquement utilisés pour séparer les phrases A et B dans les tâches de paire de phrases. Ces embeddings permettent au modèle de différencier le contexte de chaque segment.

📖

个术语

Transformer Encoder Block

Unité computationnelle fondamentale de BERT composée de multi-head attention suivie d'un réseau feed-forward avec connexions résiduelles et normalisation. Chaque bloc traite la séquence entière simultanément, préservant les relations globales.

📖

个术语

Pooling Layer

Couche finale qui agrège les représentations des tokens en un vecteur unique pour les tâches de classification. BERT utilise typiquement la représentation du token [CLS] ou effectue un pooling moyen sur tous les tokens.

📖

个术语

Hidden States

Représentations vectorielles de haute dimension produites à chaque couche du Transformer pour chaque token de la séquence. Ces états cachés capturent progressivement des caractéristiques sémantiques de plus en plus abstraites.

📖

个术语

Pre-training

在大型语料库上进行无监督训练的阶段，BERT通过MLM和NSP学习通用的语言表征。此步骤在针对特定任务的微调之前，为模型奠定了知识基础。

📖

个术语

Encoder-Only Architecture

BERT的结构仅使用Transformer的编码器块，与编码器-解码器模型不同。这种架构针对文本理解和分类任务进行了优化。

📖

个术语

[CLS] Token

添加到每个输入序列开头的特殊标记，其最终表示用于分类任务。该标记聚合整个序列的上下文信息，以做出全局级别的决策。

AI 词汇表