事前トレーニングとコーパス

📖

用語

Corpus

言語モデルのトレーニングに使用される構造化されたテキストデータの集合。通常、多様なソースから数十億語を含む。

📖

用語

Common Crawl

インターネットからクロールされたペタバイト規模の大規模なウェブコーパス。現代のLLMの事前学習における主要なデータソースの一つ。

📖

用語

Data deduplication

トレーニングコーパス内の重複コンテンツを除去するプロセス。過学習を防ぎ、モデルが獲得する知識の多様性を向上させる。

📖

用語

Next Token Prediction

モデルがシーケンス内の次のトークンを予測することを学ぶ自己回帰型の学習目標。GPTなどのモデルにとって基本的。

📖

用語

BPE (Byte Pair Encoding)

言語モデルのために最適化された語彙を作成するサブワードトークン化アルゴリズム。最も頻繁な文字ペアを反復的にマージする。

📖

用語

C4 (Colossal Clean Crawled Corpus)

Common Crawlから派生した前処理済みコーパス。不適切なコンテンツを除去し、T5などのモデルのトレーニングに使用される。

📖

用語

Training tokens

モデルがトレーニングされたトークンの総数。事前学習中に獲得された知識の範囲を評価するための重要な指標。

📖

用語

Data quality filtering

低品質のコンテンツ、バイアス、不適切な情報をコーパスから除去するためのトレーニングデータの選別・フィルタリングプロセス。

📖

用語

ファインチューニングコーパス

事前学習後にモデルを特定のタスクや専門分野に適応させるために使用される専門データセット。

📖

用語

The Pile

800GBの多様なコーパスで、22の異なるサブデータセットを含み、広範囲のドメインカバレッジを持つLLMを訓練するために特別に設計されている。

📖

用語

サブワードトークン化

単語をより小さな単位（形態素）に分割するトークン化アプローチで、モデルが稀な単語や新語を効率的に処理できるようにする。

AI用語集