Законы масштабирования

📖

термины

Закон масштабирования

Математический принцип, устанавливающий предиктивную связь между производительностью языковой модели и тремя ключевыми факторами: размером модели (количеством параметров), объемом обучающих данных и используемой вычислительной мощностью.

📖

термины

Закон Чинчиллы

Специфическое эмпирическое правило, вытекающее из экспериментов DeepMind, которое гласит, что при оптимальном вычислительном бюджете размер модели и объем обучающих данных должны масштабироваться изоморфно, в отличие от предыдущих гипотез.

📖

термины

Вычислительная мощность (Compute)

Вычислительный ресурс, измеряемый во FLOPS (Floating Point Operations Per Second), который составляет третий столп законов масштабирования и определяет длительность и осуществимость обучения больших языковых моделей.

📖

термины

Изоморфное масштабирование

Стратегия масштабирования, при которой размер модели (N) и объем данных (D) увеличиваются пропорционально в соответствии с соотношением N ≈ D, что оптимизирует производительность при заданном вычислительном бюджете.

📖

термины

Потеря на тесте (Test Loss)

Метрика производительности, часто представляющая собой перекрестную энтропийную потерю (cross-entropy loss), используемая в качестве зависимой переменной в законах масштабирования для количественной оценки эффективности модели на невидимых данных.

📖

термины

Экспонента масштабирования

Коэффициент в уравнении степенного закона (например, L(N) ∝ N^(-α)), который определяет скорость снижения потерь на тесте в зависимости от увеличения такой переменной, как размер модели или данные.

📖

термины

Трансфер масштабирования (Scaling Transfer)

Феномен, при котором законы масштабирования, наблюдаемые на более мелких моделях и более ограниченных наборах данных, могут быть экстраполированы для точного прогнозирования производительности гораздо более крупных моделей.

📖

термины

Оптимизация вычислительного бюджета

Процесс распределения ресурсов между размером модели, данными и временем обучения для максимизации итоговой производительности в рамках ограничения общего вычислительного бюджета, руководствуясь законами масштабирования.

📖

термины

Режим субоптимального масштабирования

Ситуация, при которой модель обучается с дисбалансом между её размером и объемом данных, например, большая модель на малом объеме данных, что приводит к производительности ниже той, что предсказывается оптимальными законами масштабирования.

📖

термины

Степенной закон (Power Law)

Математическое соотношение вида Y = aX^b, лежащее в основе законов масштабирования в ИИ, описывающее, как метрика производительности (Y) систематически изменяется в зависимости от входного ресурса (X), такого как количество параметров.

📖

термины

Количество параметров (размер модели)

Фундаментальная переменная в законах масштабирования, представляющая общее количество обучаемых весов в нейронной сети, которая напрямую коррелирует со способностью модели запоминать и обобщать.

📖

термины

Объем обучающих данных (размер набора данных)

Количество токенов или уникальных слов, используемых для обучения модели, увеличение которого необходимо для предотвращения переобучения и реализации полного потенциала производительности, предсказанного законами масштабирования.

📖

термины

Прогнозирующая производительность (предсказательная способность)

Способность модели делать точные прогнозы на новых данных, количественно оцениваемая с помощью потерь на тесте, и являющаяся целевой переменной, которую законы масштабирования стремятся оптимизировать.

📖

термины

Гипотеза Каплана

Теория масштабирования, предшествовавшая закону Chinchilla, которая постулировала, что производительность наиболее эффективно улучшается за счет увеличения размера модели при сохранении количества обучающих токенов относительно постоянным.

📖

термины

Граница Парето в масштабировании

Набор оптимальных распределений ресурсов (размер модели, данные, вычисления), при которых невозможно улучшить производительность в одном измерении без ухудшения её в другом, иллюстрирующий компромиссы в масштабировании.

📖

термины

Сходимость функции потерь (Loss Convergence)

Тенденция потерь на тесте к уменьшению и стабилизации по мере увеличения ресурсов (модель, данные, вычисления), следуя предсказуемой траектории, определенной законами масштабирования.

📖

термины

Масштабирование данных (Data Scaling)

Аспект закона Чинчиллы, который исследует, как увеличение объема и разнообразия обучающих данных влияет на производительность модели, независимо от её размера.

📖

термины

Масштабирование модели (Model Scaling)

Процесс увеличения количества параметров языковой модели, который, согласно законам масштабирования, должен сопровождаться пропорциональным увеличением данных для достижения оптимальной производительности.

Глоссарий ИИ

Закон масштабирования

Закон Чинчиллы

Вычислительная мощность (Compute)

Изоморфное масштабирование

Потеря на тесте (Test Loss)

Экспонента масштабирования

Трансфер масштабирования (Scaling Transfer)

Оптимизация вычислительного бюджета

Режим субоптимального масштабирования

Степенной закон (Power Law)

Количество параметров (размер модели)

Объем обучающих данных (размер набора данных)

Прогнозирующая производительность (предсказательная способность)

Гипотеза Каплана

Граница Парето в масштабировании

Сходимость функции потерь (Loss Convergence)

Масштабирование данных (Data Scaling)

Масштабирование модели (Model Scaling)

Результаты не найдены