AI 詞彙表
人工智能完整詞典
Chinchilla缩放定律
DeepMind建立的实证原则,指出为了实现最优计算预算,模型大小和训练数据量应按等比例缩放,数据/参数比约为20:1。
幂律曲线
形式为L(N, D, C) = A * N^α * D^β * C^γ的数学关系,其中损失L根据参数数量N、数据集大小D和计算预算C可预测地减少。
缩放迁移
在较小模型上观察到的缩放定律能够准确预测更大模型性能的现象,即使这些更大模型尚未完成完整训练。
最优计算预算
在给定计算成本下最大化模型性能的资源分配(FLOPs),通过明智地平衡模型大小和训练数据量来实现。
数据饱和
超过此点后,增加训练数据量对给定大小模型的性能不再带来显著改善,表明模型存在欠拟合。
缩放指数
幂律中的系数(α, β, γ),量化了分别增加参数数量、数据大小或计算预算时性能改进的效率。
计算受限阶段
训练阶段中性能主要受可用计算量限制,此时增加模型大小比增加数据更有效。
数据受限阶段
训练阶段中性能主要受可用数据量和质量限制,此时增加数据量比增加模型大小更有效。
预测测试损失
基于模型大小、数据量和计算预算的缩放定律,预先估计在测试数据集上的损失值。
临界缩放
模型大小的阈值,超过此阈值后性能增益遵循更陡峭的缩放定律,常见于超大型语言模型中。
缩放涌现
当模型大小超过某个临界阈值时,在较小模型中不存在的新能力(推理、理解)自发出现。
缩放效率
每单位资源(参数、数据或FLOP)获得的性能度量,用于比较给定预算下不同分配策略的效果。
Chinchilla同构假设
该假设认为,在固定计算预算下,模型参数数量和训练token数量应按比例增加以达到最佳性能。
Kaplan定律
OpenAI提出的初始缩放定律集合,表明性能主要取决于模型大小,数据量的重要性相对较小。
缩放帕累托前沿
资源的最优分配集合(模型大小 vs 数据),在此集合中无法在不损害一个因素的情况下改善另一个因素,定义了缩放的有效权衡。
缩放性能指标
用于衡量模型有效性并跟踪其随不同资源缩放而改进的量化指标(验证损失、困惑度、基准测试分数)。
扩展的可预测性
基于在较小模型上观察到的趋势进行外推,扩展定律能够准确预测尚未训练模型性能的能力。
扩展中的多目标优化
在确定模型和数据的最佳规模时,旨在在多个相互冲突的目标(性能、成本、延迟)之间找到最佳平衡的过程。