Transformer Scaling Laws

📖

術語

Chinchilla缩放定律

DeepMind建立的实证原则，指出为了实现最优计算预算，模型大小和训练数据量应按等比例缩放，数据/参数比约为20:1。

📖

術語

幂律曲线

形式为L(N, D, C) = A * N^α * D^β * C^γ的数学关系，其中损失L根据参数数量N、数据集大小D和计算预算C可预测地减少。

📖

術語

缩放迁移

在较小模型上观察到的缩放定律能够准确预测更大模型性能的现象，即使这些更大模型尚未完成完整训练。

📖

術語

最优计算预算

在给定计算成本下最大化模型性能的资源分配（FLOPs），通过明智地平衡模型大小和训练数据量来实现。

📖

術語

数据饱和

超过此点后，增加训练数据量对给定大小模型的性能不再带来显著改善，表明模型存在欠拟合。

📖

術語

缩放指数

幂律中的系数（α, β, γ），量化了分别增加参数数量、数据大小或计算预算时性能改进的效率。

📖

術語

计算受限阶段

训练阶段中性能主要受可用计算量限制，此时增加模型大小比增加数据更有效。

📖

術語

数据受限阶段

训练阶段中性能主要受可用数据量和质量限制，此时增加数据量比增加模型大小更有效。

📖

術語

预测测试损失

基于模型大小、数据量和计算预算的缩放定律，预先估计在测试数据集上的损失值。

📖

術語

临界缩放

模型大小的阈值，超过此阈值后性能增益遵循更陡峭的缩放定律，常见于超大型语言模型中。

📖

術語

缩放涌现

当模型大小超过某个临界阈值时，在较小模型中不存在的新能力（推理、理解）自发出现。

📖

術語

缩放效率

每单位资源（参数、数据或FLOP）获得的性能度量，用于比较给定预算下不同分配策略的效果。

📖

術語

Chinchilla同构假设

该假设认为，在固定计算预算下，模型参数数量和训练token数量应按比例增加以达到最佳性能。

📖

術語

Kaplan定律

OpenAI提出的初始缩放定律集合，表明性能主要取决于模型大小，数据量的重要性相对较小。

📖

術語

缩放帕累托前沿

资源的最优分配集合（模型大小 vs 数据），在此集合中无法在不损害一个因素的情况下改善另一个因素，定义了缩放的有效权衡。

📖

術語

缩放性能指标

用于衡量模型有效性并跟踪其随不同资源缩放而改进的量化指标（验证损失、困惑度、基准测试分数）。

📖

術語

扩展的可预测性

基于在较小模型上观察到的趋势进行外推，扩展定律能够准确预测尚未训练模型性能的能力。

📖

術語

扩展中的多目标优化

在确定模型和数据的最佳规模时，旨在在多个相互冲突的目标（性能、成本、延迟）之间找到最佳平衡的过程。

AI 詞彙表