Глоссарий ИИ
Полный словарь искусственного интеллекта
Пост-тренировочная квантизация (PTQ)
Техника уменьшения точности, применяемая к уже обученной модели без необходимости полного переобучения. Она преобразует веса и активации высокой точности (например, FP32) в представления низкой точности (например, INT8) для оптимизации вывода.
Квантизация с учётом обучения (QAT)
Метод, при котором операции квантизации и деквантизации интегрированы в вычислительный граф во время обучения. Это позволяет модели адаптироваться к потере точности, минимизируя снижение производительности по сравнению с PTQ.
Бинаризация нейронных сетей (BNN)
Экстремальная форма квантизации, где веса и/или активации ограничены одним бинарным значением (+1 или -1). Она обеспечивает значительное повышение вычислительной эффективности и экономию памяти, заменяя умножения сложениями/вычитаниями.
Структурированная обрезка (Structured Pruning)
Техника сжатия, которая удаляет целые структуры весов, такие как фильтры, каналы или заголовки внимания, а не отдельные веса. Она более эффективна для ускорения вычислений на современном оборудовании, чем неструктурированная обрезка.
Неструктурированная обрезка (Unstructured Pruning)
Метод сжатия, который удаляет отдельные веса в сети, обычно наименее значимые по величине. Хотя он может уменьшить размер модели, для ускорения вычислений требуется специализированная аппаратная поддержка (разреженность).
Факторизация матриц низкого ранга
Техника сжатия, которая разлагает большую матрицу весов на две или более меньшие матрицы. Она уменьшает количество параметров и операции матричного умножения, ускоряя плотные и сверточные слои.
Дистилляция знаний (Knowledge Distillation)
Процесс сжатия, при котором небольшая модель
Кодирование Хаффмана для весов
Метод сжатия без потерь, который применяет алгоритм кодирования Хаффмана к весам модели. Он присваивает более короткие двоичные коды наиболее часто встречающимся весам, уменьшая размер файла на диске без влияния на скорость вывода.
Совместное использование весов (Weight Sharing)
Техника сжатия, которая группирует веса в кластеры и заменяет каждый вес индексом центроида его кластера. Это уменьшает количество битов, необходимых для хранения каждого веса, и позволяет использовать таблицы поиска (lookup tables) при выводе.
Декомпозиция Такера
Форма тензорной декомпозиции, применяемая к тензорам весов (4D сверткам) для их сжатия. Она разлагает тензор на меньшее ядро и факторные матрицы, значительно уменьшая количество параметров и вычислительные затраты.
Декомпозиция КП (CANDECOMP/PARAFAC)
Метод тензорной декомпозиции, который выражает тензор как сумму произведений векторов ранга один. Он используется для сжатия сверточных слоев путем аппроксимации тензора весов с уменьшенным количеством компонентов.
Нейронная сеть переменной ширины (VNN)
Архитектура модели, где количество активных каналов в каждом слое может динамически изменяться в зависимости от ограничений ресурсов. Она обеспечивает гибкий компромисс между точностью и вычислительными затратами во время выполнения.
Блочная квантизация (Blockwise Quantization)
Техника, которая делит тензоры весов или активаций на меньшие блоки и применяет независимую квантизацию к каждому блоку. Она позволяет лучше улавливать локальные изменения величины, уменьшая общую ошибку квантизации.
8-битное представление чисел с плавающей запятой (FP8)
Формат данных низкой точности, использующий 8 бит для представления чисел с плавающей запятой, с различными вариантами (E4M3, E5M2) для обучения и вывода. Он предлагает лучший компромисс по сравнению с целочисленными форматами для некоторых рабочих нагрузок ИИ.
Структурированная разреженность N:M
Схема прореживания, где для каждого блока из M весов сохраняется ровно N весов (N < M). Этот регулярный шаблон разработан для эффективного ускорения специализированными матричными вычислительными блоками (Tensor Cores) современных GPU.