AI用語集
人工知能の完全辞典
スケーリング法則
言語モデルの性能と、モデルのサイズ(パラメータ数)、トレーニングデータの量、使用される計算能力という3つの主要な要素との間に予測的な関係を確立する数学的な原理。
チンチラの法則
DeepMindの実験から導き出された特定の経験則であり、計算予算を最適化するためには、以前の仮説とは異なり、モデルのサイズとトレーニングデータの量を等比的にスケーリングする必要があると規定している。
計算能力(コンピュート)
FLOPS(浮動小数点演算回数)で測定される計算リソースであり、スケーリング法則の第3の柱を構成し、大規模言語モデルのトレーニングの期間と実現可能性を決定する。
等比的スケーリング
モデルのサイズ(N)とデータ量(D)が N ≈ D という関係に従って比例的に増加するスケーリング戦略であり、これにより特定の計算予算における性能を最適化する。
テスト損失(テストロス)
スケーリング法則における従属変数として使用される性能指標(多くの場合、クロスエントロピー損失)であり、未見のデータに対するモデルの効率を定量化する。
スケーリング指数
べき乗則の方程式(例:L(N) ∝ N^(-α))における係数であり、モデルのサイズやデータなどの変数が増加した際の、テスト損失の減少率を決定する。
スケーリングの転送
より小さなモデルと限られたデータセットで観察されたスケーリング法則を外挿し、はるかに大きなモデルの性能を正確に予測できる現象。
計算予算の最適化
スケーリング法則に導かれ、総計算予算の制約下で最終的な性能を最大化するために、モデルのサイズ、データ、トレーニング時間の間でリソースを配分するプロセス。
非最適スケーリング領域
モデルのサイズとデータ量のバランスが取れていない状態でモデルがトレーニングされる状況(例:データ量が少ない状態で大規模モデルをトレーニングする場合)。これにより、最適なスケーリング則で予測される性能よりも低い性能となる。
べき乗則 (Power Law)
Y = aX^b という形式の数学的関係であり、AIのスケーリング則の基礎となるもの。パラメータ数などの入力リソース(X)に対して、性能指標(Y)がどのように体系的に変化するかを記述する。
パラメータ数 (Model Size)
スケーリング則における基本的な変数であり、ニューラルネットワーク内の学習可能な重みの総数を表す。これは、モデルの記憶および汎化能力と直接相関している。
トレーニングデータ量 (Dataset Size)
モデルのトレーニングに使用されるトークンまたは一意の単語の量。過学習を防ぎ、スケーリング則によって予測される最大限の性能を発揮するために、その増加は不可欠である。
予測性能 (Predictive Performance)
新しいデータに対して正確な予測を行うモデルの能力。テスト損失(テストロス)によって定量化され、スケーリング則が最適化を目指すターゲット変数である。
カプラン仮説
チンチラの法則に先立つスケーリング理論。トレーニングトークン数を比較的一定に保ちながらモデルサイズを増やすことで、性能が最も効率的に向上すると仮定していた。
スケーリングにおけるパレートフロンティア
最適なリソース配分(モデルサイズ、データ、計算量)の集合。ある次元で性能を向上させることなく、別の次元で性能を低下させることができない状態を示し、スケーリングにおけるトレードオフを説明する。
損失の収束 (Loss Convergence)
リソース(モデル、データ、計算量)が増加するにつれて、テスト損失が減少し安定化する傾向。これは、スケーリング則によって定義された予測可能な軌跡に従う。
データスケーリング (Data Scaling)
チンチラの法則における側面の一つで、モデルのサイズに関係なく、学習データの量と多様性を増加させることがモデルのパフォーマンスにどのような影響を与えるかを検証するもの。
モデルスケーリング (Model Scaling)
言語モデルのパラメータ数を増やすプロセスであり、スケーリング則に基づくと、最適なパフォーマンスを達成するためにはデータの比例的な増加を伴う必要がある。