AI用語集
人工知能の完全辞典
バイトペアエンコーディング (BPE)
最も頻繁に出現する文字ペアを反復的に結合して、最適化されたサブワードの語彙を作成する、トークン化に適したデータ圧縮アルゴリズム。
ワードピース
Googleによって開発されたBPEの変種で、トークンの結合時に言語確率を最大化し、BERTモデルとその変種で特に使用されている。
ユニグラム言語モデル
ユニグラム言語モデルに基づくトークン化アプローチで、シーケンス内のトークンの積確率を最大化することによって最適な分割を選択する。
センテンスピース
テキストを生のUnicodeシーケンスとして扱い、言語固有の前処理の必要性を排除する、言語に依存しないトークン化ライブラリ。
語彙サイズ
モデルの語彙におけるユニークなトークンの総数を決定する重要なパラメータで、モデルのサイズと言語的多様性を扱う能力に直接影響を与える。
特殊トークン
[CLS]、[SEP]、[MASK]、[PAD]などの予約トークンで、シーケンスの区切り、要素のマスキング、バッチの均一な長さへのパディングに使用される。
トークナイザー学習
テキストコーパスから語彙と分割ルールを機械学習するプロセスで、特定のタスクやドメインに対する表現を最適化する。
サブワード正則化
同じテキストの可能な異なる分割を学習中に適用するデータ拡張技術で、モデルの頑健性と汎化性能を向上させる。
語彙トランケーション
計算効率を最適化するために、語彙を最も頻出するN個のトークンに制限し、頻度の低いトークンをサブワードまたは[UNK]トークンで置き換えるプロセス。
トークン化パイプライン
正規化、事前トークン化、モデルセグメンテーション、後処理を含む一連の前処理ステップで、最終的なトークンを生成するための順次的な処理チェーン。
トークナイザー設定
特定のトークナイザーの動作を正確に再現するために必要なすべてのハイパーパラメータとメタデータを含むJSON設定ファイル。
高速トークナイザー
Rustと効率的なデータ構造を使用した最適化されたトークナイザーの実装で、純粋なPython実装よりも10〜100倍優れたパフォーマンスを提供。
トークナイザー推論
学習済みトークナイザーを新しいテキストデータに適用する段階で、生テキストをモデル処理の準備が整ったトークンシーケンスに変換する。