Глоссарий ИИ
Полный словарь искусственного интеллекта
Вычисления со смешанной точностью
Техника вычислений, использующая одновременно несколько числовых форматов переменной точности (FP64, FP32, FP16, INT8) для оптимизации баланса между производительностью памяти, пропускной способностью вычислений и точностью результатов в приложениях ИИ.
FP16 (числа с плавающей запятой половинной точности)
Формат числового представления на 16 бит, включающий 1 бит знака, 5 бит экспоненты и 10 бит мантиссы, используемый для ускорения вычислений и уменьшения потребления памяти ценой сниженной точности.
FP32 (числа с плавающей запятой одинарной точности)
Стандартный формат числового представления на 32 бита с 1 битом знака, 8 битами экспоненты и 23 битами мантиссы, являющийся эталоном точности для обучения большинства моделей ИИ.
INT8 (8-битное целое число)
8-битный формат квантования, представляющий знаковые целые числа, в основном используемый для вывода (inference) для максимизации пропускной способности вычислений и минимизации энергопотребления аппаратных ускорителей.
Tensor Cores
Специализированные вычислительные блоки, встроенные в современные GPU (NVIDIA), предназначенные для параллельного выполнения операций умножения-накопления матриц в смешанной точности (FP16/FP32).
Динамическое масштабирование потерь
Адаптивный вариант масштабирования потерь, при котором коэффициент масштабирования динамически регулируется во время обучения, увеличиваясь при стабильности и уменьшаясь при переполнении для оптимизации сходимости.
Главные веса
Копия весов модели, поддерживаемая в FP32 (или FP64) во время обучения со смешанной точностью, служащая эталоном точности для обновления весов, в то время как вычисления forward/backward выполняются в FP16.
Автоматическая смешанная точность (AMP)
Функциональность ИИ-фреймворков (PyTorch, TensorFlow), которая автоматически выбирает операции для выполнения в FP16 или FP32, управляет преобразованием типов и применяет масштабирование потерь прозрачным образом.
Векторные процессорные блоки (VPU)
Специализированные аппаратные ускорители, оптимизированные для вычислений с целочисленной точностью (INT8) и низкой точностью, предназначенные для эффективного вывода нейронных сетей на периферийных устройствах.
Ускорение с использованием разреженности
Техника, сочетающаяся со смешанной точностью, использующая нули в тензорах для пропуска ненужных вычислений, что снижает пропускную способность памяти и увеличивает эффективную пропускную способность матричных операций.
Анализ численной устойчивости
Систематическая оценка влияния снижения точности на сходимость и конечную точность модели, выявление чувствительных слоев, требующих сохранения в FP32 в рамках стратегии смешанной точности.
FP8 (8-битная плавающая точка)
Новый формат 8-битного представления с различными вариантами (E4M3, E5M2), оптимизированными для обучения и вывода, обеспечивающий экстремальный компромисс между производительностью и точностью для очень больших моделей.
Накопление градиентов в смешанной точности
Техника, при которой градиенты, вычисленные в FP16, накапливаются в буфере FP32 перед обновлением весов, предотвращая потерю точности при агрегации по нескольким мини-пакетам.
Обрезка с учётом точности
Метод обрезки сети, который учитывает чувствительность каждого слоя к снижению точности, применяя более агрессивную обрезку к слоям, устойчивым к низкой точности, для максимизации ускорения.