スケーリング則

📖

用語

スケーリング法則

言語モデルの性能と、モデルのサイズ（パラメータ数）、トレーニングデータの量、使用される計算能力という3つの主要な要素との間に予測的な関係を確立する数学的な原理。

📖

用語

チンチラの法則

DeepMindの実験から導き出された特定の経験則であり、計算予算を最適化するためには、以前の仮説とは異なり、モデルのサイズとトレーニングデータの量を等比的にスケーリングする必要があると規定している。

📖

用語

計算能力（コンピュート）

FLOPS（浮動小数点演算回数）で測定される計算リソースであり、スケーリング法則の第3の柱を構成し、大規模言語モデルのトレーニングの期間と実現可能性を決定する。

📖

用語

等比的スケーリング

モデルのサイズ（N）とデータ量（D）が N ≈ D という関係に従って比例的に増加するスケーリング戦略であり、これにより特定の計算予算における性能を最適化する。

📖

用語

テスト損失（テストロス）

スケーリング法則における従属変数として使用される性能指標（多くの場合、クロスエントロピー損失）であり、未見のデータに対するモデルの効率を定量化する。

📖

用語

スケーリング指数

べき乗則の方程式（例：L(N) ∝ N^(-α)）における係数であり、モデルのサイズやデータなどの変数が増加した際の、テスト損失の減少率を決定する。

📖

用語

スケーリングの転送

より小さなモデルと限られたデータセットで観察されたスケーリング法則を外挿し、はるかに大きなモデルの性能を正確に予測できる現象。

📖

用語

計算予算の最適化

スケーリング法則に導かれ、総計算予算の制約下で最終的な性能を最大化するために、モデルのサイズ、データ、トレーニング時間の間でリソースを配分するプロセス。

📖

用語

非最適スケーリング領域

モデルのサイズとデータ量のバランスが取れていない状態でモデルがトレーニングされる状況（例：データ量が少ない状態で大規模モデルをトレーニングする場合）。これにより、最適なスケーリング則で予測される性能よりも低い性能となる。

📖

用語

べき乗則 (Power Law)

Y = aX^b という形式の数学的関係であり、AIのスケーリング則の基礎となるもの。パラメータ数などの入力リソース（X）に対して、性能指標（Y）がどのように体系的に変化するかを記述する。

📖

用語

パラメータ数 (Model Size)

スケーリング則における基本的な変数であり、ニューラルネットワーク内の学習可能な重みの総数を表す。これは、モデルの記憶および汎化能力と直接相関している。

📖

用語

トレーニングデータ量 (Dataset Size)

モデルのトレーニングに使用されるトークンまたは一意の単語の量。過学習を防ぎ、スケーリング則によって予測される最大限の性能を発揮するために、その増加は不可欠である。

📖

用語

予測性能 (Predictive Performance)

新しいデータに対して正確な予測を行うモデルの能力。テスト損失（テストロス）によって定量化され、スケーリング則が最適化を目指すターゲット変数である。

📖

用語

カプラン仮説

チンチラの法則に先立つスケーリング理論。トレーニングトークン数を比較的一定に保ちながらモデルサイズを増やすことで、性能が最も効率的に向上すると仮定していた。

📖

用語

スケーリングにおけるパレートフロンティア

最適なリソース配分（モデルサイズ、データ、計算量）の集合。ある次元で性能を向上させることなく、別の次元で性能を低下させることができない状態を示し、スケーリングにおけるトレードオフを説明する。

📖

用語

損失の収束 (Loss Convergence)

リソース（モデル、データ、計算量）が増加するにつれて、テスト損失が減少し安定化する傾向。これは、スケーリング則によって定義された予測可能な軌跡に従う。

📖

用語

データスケーリング (Data Scaling)

チンチラの法則における側面の一つで、モデルのサイズに関係なく、学習データの量と多様性を増加させることがモデルのパフォーマンスにどのような影響を与えるかを検証するもの。

📖

用語

モデルスケーリング (Model Scaling)

言語モデルのパラメータ数を増やすプロセスであり、スケーリング則に基づくと、最適なパフォーマンスを達成するためにはデータの比例的な増加を伴う必要がある。

AI用語集