Глоссарий ИИ
Полный словарь искусственного интеллекта
Закон масштабирования
Математический принцип, устанавливающий предиктивную связь между производительностью языковой модели и тремя ключевыми факторами: размером модели (количеством параметров), объемом обучающих данных и используемой вычислительной мощностью.
Закон Чинчиллы
Специфическое эмпирическое правило, вытекающее из экспериментов DeepMind, которое гласит, что при оптимальном вычислительном бюджете размер модели и объем обучающих данных должны масштабироваться изоморфно, в отличие от предыдущих гипотез.
Вычислительная мощность (Compute)
Вычислительный ресурс, измеряемый во FLOPS (Floating Point Operations Per Second), который составляет третий столп законов масштабирования и определяет длительность и осуществимость обучения больших языковых моделей.
Изоморфное масштабирование
Стратегия масштабирования, при которой размер модели (N) и объем данных (D) увеличиваются пропорционально в соответствии с соотношением N ≈ D, что оптимизирует производительность при заданном вычислительном бюджете.
Потеря на тесте (Test Loss)
Метрика производительности, часто представляющая собой перекрестную энтропийную потерю (cross-entropy loss), используемая в качестве зависимой переменной в законах масштабирования для количественной оценки эффективности модели на невидимых данных.
Экспонента масштабирования
Коэффициент в уравнении степенного закона (например, L(N) ∝ N^(-α)), который определяет скорость снижения потерь на тесте в зависимости от увеличения такой переменной, как размер модели или данные.
Трансфер масштабирования (Scaling Transfer)
Феномен, при котором законы масштабирования, наблюдаемые на более мелких моделях и более ограниченных наборах данных, могут быть экстраполированы для точного прогнозирования производительности гораздо более крупных моделей.
Оптимизация вычислительного бюджета
Процесс распределения ресурсов между размером модели, данными и временем обучения для максимизации итоговой производительности в рамках ограничения общего вычислительного бюджета, руководствуясь законами масштабирования.
Режим субоптимального масштабирования
Ситуация, при которой модель обучается с дисбалансом между её размером и объемом данных, например, большая модель на малом объеме данных, что приводит к производительности ниже той, что предсказывается оптимальными законами масштабирования.
Степенной закон (Power Law)
Математическое соотношение вида Y = aX^b, лежащее в основе законов масштабирования в ИИ, описывающее, как метрика производительности (Y) систематически изменяется в зависимости от входного ресурса (X), такого как количество параметров.
Количество параметров (размер модели)
Фундаментальная переменная в законах масштабирования, представляющая общее количество обучаемых весов в нейронной сети, которая напрямую коррелирует со способностью модели запоминать и обобщать.
Объем обучающих данных (размер набора данных)
Количество токенов или уникальных слов, используемых для обучения модели, увеличение которого необходимо для предотвращения переобучения и реализации полного потенциала производительности, предсказанного законами масштабирования.
Прогнозирующая производительность (предсказательная способность)
Способность модели делать точные прогнозы на новых данных, количественно оцениваемая с помощью потерь на тесте, и являющаяся целевой переменной, которую законы масштабирования стремятся оптимизировать.
Гипотеза Каплана
Теория масштабирования, предшествовавшая закону Chinchilla, которая постулировала, что производительность наиболее эффективно улучшается за счет увеличения размера модели при сохранении количества обучающих токенов относительно постоянным.
Граница Парето в масштабировании
Набор оптимальных распределений ресурсов (размер модели, данные, вычисления), при которых невозможно улучшить производительность в одном измерении без ухудшения её в другом, иллюстрирующий компромиссы в масштабировании.
Сходимость функции потерь (Loss Convergence)
Тенденция потерь на тесте к уменьшению и стабилизации по мере увеличения ресурсов (модель, данные, вычисления), следуя предсказуемой траектории, определенной законами масштабирования.
Масштабирование данных (Data Scaling)
Аспект закона Чинчиллы, который исследует, как увеличение объема и разнообразия обучающих данных влияет на производительность модели, независимо от её размера.
Масштабирование модели (Model Scaling)
Процесс увеличения количества параметров языковой модели, который, согласно законам масштабирования, должен сопровождаться пропорциональным увеличением данных для достижения оптимальной производительности.