缩放定律

📖

个术语

一个数学原理，它建立了语言模型的性能与三个关键因素之间的预测关系：模型大小（参数数量）、训练数据量和使用的计算能力。

📖

个术语

Chinchilla定律

源自DeepMind实验的一条特定经验法则，它规定为了获得最优的计算预算，模型大小和训练数据量必须以同构的方式进行缩放，这与之前的假设相反。

📖

个术语

计算能力（算力）

以FLOPS（每秒浮点运算次数）衡量的计算资源，它是缩放定律的三大支柱之一，决定了大型语言模型训练的持续时间和可行性。

📖

个术语

同构缩放

一种缩放策略，其中模型大小（N）和数据量（D）根据 N ≈ D 的关系成比例增加，从而在给定的计算预算下优化性能。

📖

个术语

测试损失

一种性能指标，通常是交叉熵损失（cross-entropy loss），在缩放定律中用作因变量，以量化模型在未见数据上的有效性。

📖

个术语

缩放指数

幂律方程中的一个系数（例如，L(N) ∝ N^(-α)），它决定了测试损失随模型大小或数据量等变量增加而降低的速率。

📖

个术语

缩放迁移

一种现象，即在较小模型和较小数据集上观察到的缩放定律可以被外推，以准确预测大得多的模型的性能。

📖

个术语

计算预算优化

在总计算预算约束下，在模型大小、数据和训练时间之间分配资源以最大化最终性能的过程，该过程由缩放定律指导。

📖

个术语

次优缩放机制

模型训练中存在模型规模与数据量之间的不平衡，例如大数据量的小模型或小数据量的大模型，导致性能低于最优缩放定律预测的结果。

📖

个术语

幂律

形式为Y = aX^b的数学关系，是人工智能缩放定律的基础，描述性能指标(Y)如何随输入资源(X)（如参数数量）系统地变化。

📖

个术语

参数数量（模型规模）

缩放定律中的基本变量，表示神经网络中可训练权重的总数，与模型的记忆和泛化能力直接相关。

📖

个术语

训练数据量（数据集规模）

用于训练模型的标记或唯一单词的数量，其增加对于避免过拟合和实现缩放定律预测的全部性能潜力至关重要。

📖

个术语

预测性能

模型在新数据上做出准确预测的能力，通过测试损失来量化，是缩放定律寻求优化的目标变量。

📖

个术语

卡普兰假设

Chinchilla定律之前的缩放理论，假设通过增加模型规模同时保持训练标记数量相对不变来最有效地提高性能。

📖

个术语

帕累托缩放前沿

资源（模型规模、数据、计算）的最优分配集合，在这种分配中，不可能在不降低另一维度性能的情况下提高某一维度的性能，说明了缩放中的权衡。

📖

个术语

损失收敛

随着资源（模型、数据、计算）增加，测试损失趋于减少和稳定的趋势，遵循缩放定律定义的可预测轨迹。

📖

个术语

数据扩展 (Data Scaling)

Chinchilla法则的一个方面，研究训练数据的数量和多样性的增加如何影响模型的性能，与其规模无关。

📖

个术语

模型扩展 (Model Scaling)

增加语言模型参数数量的过程。根据缩放定律，要达到最佳性能，该过程必须伴随着数据的按比例增加。

AI 词汇表