BERTアーキテクチャ

📖

用語

マスク言語モデリング (MLM)

事前学習の目的で、15%のトークンがランダムにマスクされ、モデルは双方向コンテキストを使用してそれらを予測する必要があります。この技術により、BERTはモデルに単語間のセマンティックな関係を理解させることで、深いコンテキスト表現を学習できます。

📖

用語

次文予測 (NSP)

二値分類の事前学習タスクで、モデルは2つの与えられた文が元のテキストで連続しているかどうかを予測します。論争の余地がありますが、この目的はBERTがQAやNLIなどのタスクのために文間関係を理解するのに役立ちます。

📖

用語

WordPieceトークン化

単語を形態論的なサブユニットに分割するセグメンテーションアルゴリズムで、未知語彙を処理し表現を最適化します。このアプローチにより、BERTは単語を既知のトークンに分解することで、レアな単語や新語を効率的に処理できます。

📖

用語

自己注意メカニズム

基本的なメカニズムで、各トークンはシーケンス内のすべての他のトークンに対して注意の重みを計算します。この操作により、BERTは長距離の依存関係を捕捉し、リッチなコンテキスト表現を作成できます。

📖

用語

セグメント埋め込み

入力内の異なるセグメントを区別するための特化した埋め込みで、通常、文ペアのタスクで文Aと文Bを分離するために使用されます。これらの埋め込みにより、モデルは各セグメントのコンテキストを区別できます。

📖

用語

Transformerエンコーダーブロック

BERTの基本的な計算ユニットで、複数のヘッド注意が続き、残差接続と正規化を伴うフィードフォワードネットワークがあります。各ブロックはシーケンス全体を同時に処理し、グローバルな関係を保持します。

📖

用語

プーリング層

分類タスクのためにトークンの表現を単一のベクトルに集約する最終層。BERTは通常、トークン[CLS]の表現を使用するか、すべてのトークンで平均プーリングを実行します。

📖

用語

隠れ状態

シーケンス内の各トークンについて、Transformerの各層で生成される高次元ベクトル表現。これらの隠れ状態は、次第により抽象的なセマンティック特徴を捕捉します。

📖

用語

事前学習

大規模コーパス上での教師なし学習段階で、BERTはMLMとNSPを通じて一般的な言語表現を学習します。このステップは、タスク固有のファインチューニングの前にモデルの知識基盤を確立します。

📖

用語

エンコーダのみのアーキテクチャ

エンコーダ・デコーダモデルとは異なり、BERTがTransformerのエンコーダブロックのみを使用する構造。このアーキテクチャは、テキストの理解と分類タスクに最適化されています。

📖

用語

[CLS]トークン

各入力シーケンスの先頭に追加される特別なトークンで、その最終表現は分類タスクに使用されます。このトークンはシーケンス全体の文脈情報を集約し、グローバルなレベルでの決定を行います。

AI用語集