AI用語集
人工知能の完全辞典
ユニグラム言語モデルトークン化
巨大な語彙を初期化し、ユニグラムモデルの尤度への影響が最も小さいサブワードを反復的に削除して語彙を縮小し、最適な語彙を作成するトークン化手法。
語彙
言語モデルが認識・処理できるすべての一意なトークンの静的かつ事前定義された集合であり、そのサイズはモデルの能力と計算複雑性に直接影響を与える。
特殊トークン
分類用の[CLS]、分離用の[SEP]、シーケンスのアライメント用の[PAD]など、特定の意味的機能を持つ事前定義されたトークンで、モデルの入力を構造化するために使用される。
埋め込み行列
語彙内の各トークンの密なベクトル表現に対応する行を持つ学習された重みの配列であり、トークンIDをベクトルに変換する射影層として機能する。
サブワードトークン化
語彙をより小さな単位(サブワード)に分割するトークン化戦略で、有限の語彙を管理しながら、新語やタイプミスを含む無限の単語を表現することを可能にする。
文字レベルトークン化
各文字がトークンとなる粒度の高いトークン化アプローチで、語彙外(OOV)の問題を解消するが、非常に長いシーケンスを生成し、計算複雑性を増大させる。
単語レベルトークン化
スペースや句読点で区切られた各単語全体を1つのトークンとして扱う分割方法で、シンプルだが語彙外(OOV)の問題に対して脆弱である。
トークン化手法
生のテキストをトークンに分割する方法を定義する特定のルールとアルゴリズム(例:BPE、WordPiece)の集合であり、モデルのパフォーマンスと堅牢性に直接影響を与える。
空白トークン化
空白文字のみに基づいてテキストを分割するシンプルなトークン化手法で、より高度な手法の前の最初のステップとしてよく使用されます。
正規表現トークン化
正規表現のパターンを使用して複雑なトークン化ルールを定義する分割手法で、単語、句読点、およびその他の記号を制御された方法で分離することができます。
SentencePieceトークン化
テキストをUnicodeのストリームとして扱い、トークン化アルゴリズム(BPEやユニグラムなど)を適用して、完全にデコード可能かつ言語に依存しない語彙を作成する特定の実装です。
文字ペア符号化
バイト単位ではなく文字単位で動作するBPEの変種で、最も頻繁に出現する隣接する文字ペアを結合して、サブワードの語彙を構築します。
N-gramトークン化
テキストをn個のアイテム(文字または単語)の連続したシーケンスに分割するアプローチで、局所的な文脈情報を捉えますが、語彙の組合せ爆発という問題があります。