BERT（Bidirectional Encoder Representations）

📖

用語

DistilBERT (Distilled BERT)

知識蒸留によって作成されたBERTの軽量版で、ベースBERTの97%の性能を維持しながら、わずか40%のパラメータでより高速な推論を実現します。

📖

用語

Positional Embeddings

BERTでトークンの埋め込みに追加されるベクトルで、系列の位置をエンコードします。注意機構だけではトークンの順序を捉えられないため、これらは不可欠です。

📖

用語

BERT-base vs BERT-large

BERTの2つの主要な設定：base（12層、768隠れ次元、1.1億パラメータ）とlarge（24層、1024次元、3.4億パラメータ）で、異なる性能/リソースのトレードオフに対応します。

📖

用語

Fine-tuning BERT

事前学習されたBERTの重みを特定のタスクに適応させるプロセスで、分類層を追加し、対象タスクのラベル付きデータで訓練します。

📖

用語

[SEP] Token

BERTで使用される特殊なトークンで、異なるテキストセグメント（QAやNSPタスクでの文のペアなど）を区切り、セグメント間の境界をマークします。

📖

用語

Pre-training Objectives

BERTを大規模な非ラベル付きコーパスで事前学習するために使用される自己教師ありタスク（MLMとNSP）で、一般的な言語表現の学習を可能にします。

📖

用語

Transformer Encoder Stack

BERTの基本アーキテクチャで、複数のTransformerエンコーダ層で構成され、各層はマルチヘッド注意機構とフィードフォワードネットワークを含みます。

📖

用語

Domain-specific BERT

専門コーパス（BioBERTは生物医学、SciBERTは科学、FinBERTは金融）で事前学習されたBERTの変種で、これらのドメインでより良い性能を発揮します。

📖

用語

多言語BERT (mBERT)

104言語で事前学習されたBERTのバージョンで、共有語彙を使用し、単一のモデルで複数言語のテキストを理解・処理することができます。

📖

用語

BERT学

BERTタイプのモデルの分析、解釈、改善に専念する研究分野で、その内部の動作と言語能力を研究しています。

AI用語集