トークン化 - AI用語集

📖

用語

バイトペアエンコーディング (BPE)

最も頻繁に出現する文字ペアを反復的に結合して、最適化されたサブワードの語彙を作成する、トークン化に適したデータ圧縮アルゴリズム。

📖

用語

ワードピース

Googleによって開発されたBPEの変種で、トークンの結合時に言語確率を最大化し、BERTモデルとその変種で特に使用されている。

📖

用語

ユニグラム言語モデル

ユニグラム言語モデルに基づくトークン化アプローチで、シーケンス内のトークンの積確率を最大化することによって最適な分割を選択する。

📖

用語

センテンスピース

テキストを生のUnicodeシーケンスとして扱い、言語固有の前処理の必要性を排除する、言語に依存しないトークン化ライブラリ。

📖

用語

語彙サイズ

モデルの語彙におけるユニークなトークンの総数を決定する重要なパラメータで、モデルのサイズと言語的多様性を扱う能力に直接影響を与える。

📖

用語

特殊トークン

[CLS]、[SEP]、[MASK]、[PAD]などの予約トークンで、シーケンスの区切り、要素のマスキング、バッチの均一な長さへのパディングに使用される。

📖

用語

トークナイザー学習

テキストコーパスから語彙と分割ルールを機械学習するプロセスで、特定のタスクやドメインに対する表現を最適化する。

📖

用語

サブワード正則化

同じテキストの可能な異なる分割を学習中に適用するデータ拡張技術で、モデルの頑健性と汎化性能を向上させる。

📖

用語

語彙トランケーション

計算効率を最適化するために、語彙を最も頻出するN個のトークンに制限し、頻度の低いトークンをサブワードまたは[UNK]トークンで置き換えるプロセス。

📖

用語

トークン化パイプライン

正規化、事前トークン化、モデルセグメンテーション、後処理を含む一連の前処理ステップで、最終的なトークンを生成するための順次的な処理チェーン。

📖

用語

トークナイザー設定

特定のトークナイザーの動作を正確に再現するために必要なすべてのハイパーパラメータとメタデータを含むJSON設定ファイル。

📖

用語

高速トークナイザー

Rustと効率的なデータ構造を使用した最適化されたトークナイザーの実装で、純粋なPython実装よりも10〜100倍優れたパフォーマンスを提供。

📖

用語

トークナイザー推論

学習済みトークナイザーを新しいテキストデータに適用する段階で、生テキストをモデル処理の準備が整ったトークンシーケンスに変換する。

AI用語集