Глоссарий ИИ
Полный словарь искусственного интеллекта
Законы масштабирования
Математические принципы, описывающие, как производительность моделей глубокого обучения предсказуемо улучшается с увеличением размера модели, данных и вычислительных ресурсов.
Степенной закон масштабирования
Математическая зависимость, при которой производительность модели следует степенному закону в зависимости от таких факторов, как размер модели, количество параметров или объем данных.
Законы масштабирования Chinchilla
Специфические законы масштабирования, обнаруженные DeepMind, предполагающие, что современные модели недообучены и что данные важнее для оптимизации производительности, чем предполагалось ранее.
Вычислительно-оптимальное масштабирование
Стратегия оптимального распределения вычислительных ресурсов между размером модели и объемом обучающих данных для максимизации производительности при фиксированном бюджете.
Законы масштабирования данных
Принципы, описывающие, как увеличение объема обучающих данных влияет на производительность модели, часто следуя степенной зависимости с насыщением.
Масштабирование размера модели
Исследование эволюции возможностей модели в зависимости от количества параметров, выявляющее предсказуемые улучшения до определенных точек насыщения.
Масштабирование токенов
Анализ влияния количества обучающих токенов на производительность модели, необходимый для определения оптимального объема текстовых данных.
Возникающие способности
Способности, которые внезапно появляются в больших моделях при определенных критических масштабах, отсутствуя в меньших моделях того же семейства.
Фазовые переходы
Резкие изменения в поведении или производительности модели, происходящие при определенных пороговых значениях размера или данных.
Нейронные законы масштабирования
Общая теоретическая структура, объединяющая эмпирические наблюдения о масштабировании нейронных сетей в различных архитектурах и задачах.
Законы масштабирования Каплана
Первые эмпирические законы масштабирования, установленные OpenHub, показывающие степенные зависимости между размером модели, данными и производительностью.
Кривые IsoFLOP
Кривые производительности при постоянном бюджете FLOP, позволяющие сравнивать различные архитектуры или стратегии обучения при равных вычислительных затратах.
Критический размер батча
Оптимальный размер батча, за пределами которого дальнейшее увеличение не дает значительного улучшения скорости обучения.
Двойной спуск
Феномен, когда тестовая ошибка уменьшается, увеличивается, а затем снова уменьшается по мере того, как размер модели превышает точку интерполяции данных.
Гроккинг
Феномен, когда модели внезапно приобретают обобщаемое понимание после длительного периода кажущегося переобучения.
Минимизация с учетом остроты
Техника оптимизации, ищущая плоские минимумы в ландшафте потерь, особенно важная для стабильности больших моделей.
Масштабирование потерь
Прогнозирование эволюции функции потерь в зависимости от выделенных ресурсов, позволяющее оценить производительность до обучения.
Плато производительности
Фазы стагнации в улучшении производительности, несмотря на увеличение ресурсов, указывающие на ограничения в текущих законах масштабирования.
Экспонента масштабирования
Критический параметр в степенных законах, определяющий скорость улучшения производительности относительно увеличения ресурсов.
Коэффициент масштабирования
Мультипликативная константа в уравнениях масштабирования, определяющая базовый уровень производительности до применения эффектов масштабирования.