Глоссарий ИИ
Полный словарь искусственного интеллекта
Квантизация
Процесс снижения численной точности весов и активаций модели ИИ для оптимизации вывода и уменьшения занимаемой памяти.
8-битная квантизация
Техника сжатия, уменьшающая веса модели с 32 бит до 8 бит, обеспечивающая оптимальный компромисс между производительностью и точностью для LLM.
4-битная квантизация
Метод экстремального сжатия, уменьшающий веса до 4 бит, позволяющий получить значительный выигрыш в памяти, но с потенциальной потерей качества.
Посттренировочная квантизация (PTQ)
Техника, применяемая после обучения модели, преобразующая веса в пониженную точность без необходимости полного переобучения.
Обучение с учетом квантизации (QAT)
Подход к обучению, имитирующий эффекты квантизации в процессе обучения для минимизации потери точности.
Динамическая квантизация
Метод, применяемый при выводе, когда активации квантуются на лету, обеспечивая гибкость, но с вычислительными накладными расходами.
Статическая квантизация
Подход, предварительно вычисляющий параметры квантизации перед выводом, оптимизируя скорость в ущерб гибкости.
Калибровка квантизации
Процесс определения оптимальных параметров квантизации (масштаб, нулевая точка) на основе репрезентативной выборки данных.
GPTQ
Градиентная посттренировочная квантификация, продвинутая техника, итеративно оптимизирующая квантифицированные веса для минимизации ошибки реконструкции.
AWQ
Квантификация весов с учетом активаций, метод взвешивания важности весов в соответствии с амплитудой соответствующих активаций.
Квантификация без обучения
Техника, не требующая калибровочных данных, использующая эвристики на основе распределения весов для квантификации модели.
Смешанная точность квантификации
Стратегия применения различных уровней точности квантификации в зависимости от слоев модели для оптимизации компромисса производительность/точность.
Симметричная квантификация
Схема квантификации, где диапазон значений центрирован вокруг нуля, упрощающая вычисления, но потенциально не полностью использующая динамический диапазон.
Асимметричная квантификация
Подход, позволяющий использовать диапазоны значений, не центрированные на нуле, оптимизируя использование квантифицированного диапазона для асимметричных распределений.
Масштабный коэффициент
Мультипликативный параметр, используемый для отображения непрерывных значений в квантифицированный диапазон, критически важный для точности квантификации.
Нулевая точка
Смещение, добавляемое при асимметричной квантификации для выравнивания нулевого значения с плавающей запятой с квантифицированным представлением.
Квантовый шум
Ошибка, вносимая при снижении точности, проявляющаяся как ухудшение производительности модели из-за аппроксимации весов.
Тонкая настройка с учетом квантования
Процесс легкой корректировки после квантования, направленный на восстановление точности, потерянной при сжатии модели.
SmoothQuant
Техника квантования, выравнивающая сложность квантования между весами и активациями посредством предварительного математического преобразования.
LLM.int8()
Специфический метод 8-битного квантования для больших языковых моделей, сочетающий матричное разложение и гибридное квантование.