Квантизация и сжатие - Глоссарий ИИ

📖

термины

Пост-тренировочная квантизация (PTQ)

Техника уменьшения точности, применяемая к уже обученной модели без необходимости полного переобучения. Она преобразует веса и активации высокой точности (например, FP32) в представления низкой точности (например, INT8) для оптимизации вывода.

📖

термины

Квантизация с учётом обучения (QAT)

Метод, при котором операции квантизации и деквантизации интегрированы в вычислительный граф во время обучения. Это позволяет модели адаптироваться к потере точности, минимизируя снижение производительности по сравнению с PTQ.

📖

термины

Бинаризация нейронных сетей (BNN)

Экстремальная форма квантизации, где веса и/или активации ограничены одним бинарным значением (+1 или -1). Она обеспечивает значительное повышение вычислительной эффективности и экономию памяти, заменяя умножения сложениями/вычитаниями.

📖

термины

Структурированная обрезка (Structured Pruning)

Техника сжатия, которая удаляет целые структуры весов, такие как фильтры, каналы или заголовки внимания, а не отдельные веса. Она более эффективна для ускорения вычислений на современном оборудовании, чем неструктурированная обрезка.

📖

термины

Неструктурированная обрезка (Unstructured Pruning)

Метод сжатия, который удаляет отдельные веса в сети, обычно наименее значимые по величине. Хотя он может уменьшить размер модели, для ускорения вычислений требуется специализированная аппаратная поддержка (разреженность).

📖

термины

Факторизация матриц низкого ранга

Техника сжатия, которая разлагает большую матрицу весов на две или более меньшие матрицы. Она уменьшает количество параметров и операции матричного умножения, ускоряя плотные и сверточные слои.

📖

термины

Дистилляция знаний (Knowledge Distillation)

Процесс сжатия, при котором небольшая модель

📖

термины

Кодирование Хаффмана для весов

Метод сжатия без потерь, который применяет алгоритм кодирования Хаффмана к весам модели. Он присваивает более короткие двоичные коды наиболее часто встречающимся весам, уменьшая размер файла на диске без влияния на скорость вывода.

📖

термины

Совместное использование весов (Weight Sharing)

Техника сжатия, которая группирует веса в кластеры и заменяет каждый вес индексом центроида его кластера. Это уменьшает количество битов, необходимых для хранения каждого веса, и позволяет использовать таблицы поиска (lookup tables) при выводе.

📖

термины

Декомпозиция Такера

Форма тензорной декомпозиции, применяемая к тензорам весов (4D сверткам) для их сжатия. Она разлагает тензор на меньшее ядро и факторные матрицы, значительно уменьшая количество параметров и вычислительные затраты.

📖

термины

Декомпозиция КП (CANDECOMP/PARAFAC)

Метод тензорной декомпозиции, который выражает тензор как сумму произведений векторов ранга один. Он используется для сжатия сверточных слоев путем аппроксимации тензора весов с уменьшенным количеством компонентов.

📖

термины

Нейронная сеть переменной ширины (VNN)

Архитектура модели, где количество активных каналов в каждом слое может динамически изменяться в зависимости от ограничений ресурсов. Она обеспечивает гибкий компромисс между точностью и вычислительными затратами во время выполнения.

📖

термины

Блочная квантизация (Blockwise Quantization)

Техника, которая делит тензоры весов или активаций на меньшие блоки и применяет независимую квантизацию к каждому блоку. Она позволяет лучше улавливать локальные изменения величины, уменьшая общую ошибку квантизации.

📖

термины

8-битное представление чисел с плавающей запятой (FP8)

Формат данных низкой точности, использующий 8 бит для представления чисел с плавающей запятой, с различными вариантами (E4M3, E5M2) для обучения и вывода. Он предлагает лучший компромисс по сравнению с целочисленными форматами для некоторых рабочих нагрузок ИИ.

📖

термины

Структурированная разреженность N:M

Схема прореживания, где для каждого блока из M весов сохраняется ровно N весов (N < M). Этот регулярный шаблон разработан для эффективного ускорения специализированными матричными вычислительными блоками (Tensor Cores) современных GPU.

Глоссарий ИИ

Пост-тренировочная квантизация (PTQ)

Квантизация с учётом обучения (QAT)

Бинаризация нейронных сетей (BNN)

Структурированная обрезка (Structured Pruning)

Неструктурированная обрезка (Unstructured Pruning)

Факторизация матриц низкого ранга

Дистилляция знаний (Knowledge Distillation)

Кодирование Хаффмана для весов

Совместное использование весов (Weight Sharing)

Декомпозиция Такера

Декомпозиция КП (CANDECOMP/PARAFAC)

Нейронная сеть переменной ширины (VNN)

Блочная квантизация (Blockwise Quantization)

8-битное представление чисел с плавающей запятой (FP8)

Структурированная разреженность N:M

Результаты не найдены