Квантование и оптимизация

📖

термины

Обучение с учетом квантования (QAT)

Метод оптимизации, при котором симуляция квантования низкой точности интегрируется в процесс обучения, позволяя модели адаптировать свои веса для минимизации потери производительности, вызванной квантованием.

📖

термины

Адаптация низкого ранга (LoRA)

Эффективный метод адаптации, который замораживает веса предварительно обученной модели и внедряет небольшие разложимые матрицы низкого ранга, что резко снижает количество обучаемых параметентов для тонкой настройки при сохранении производительности.

📖

термины

8-битное представление с плавающей точкой (FP8)

Числовой формат данных очень низкой точности, использующий 8 бит для представления чисел с плавающей точкой, обеспечивающий значительное ускорение на современных графических процессорах (GPU) при сохранении стабильности обучения больших моделей.

📖

термины

4-битное целочисленное квантование (INT4)

Техника экстремального сжатия, представляющая веса модели с помощью 4 бит, требующая использования продвинутых алгоритмов квантования и часто частичного переобучения для компенсации значительной потери информации.

📖

термины

Компенсация смещения квантования (Q-Bias)

Техника настройки после квантования, которая анализирует и систематически исправляет смещения, вызванные снижением точности, часто путем изменения слоев нормализации или смещений линейных слоев.

📖

термины

Оптимизация путем поиска по сетке квантования

Метод систематического исследования различных конфигураций квантования (по слоям, по группам, смешанное) для выявления оптимальной схемы, обеспечивающей наилучший баланс между размером модели, скоростью и точностью для заданной архитектуры.

📖

термины

Спекулятивный вывод (Speculative Inference)

Техника ускорения генеративного вывода, при которой небольшая модель 'черновика' быстро предлагает несколько токенов, которые затем проверяются параллельно большой целевой моделью, что снижает общее количество дорогостоящих этапов вычислений.

📖

термины

Сингулярное разложение с усечением (Truncated SVD)

Применение разложения SVD с последующим усечением наименьших сингулярных чисел для аппроксимации матрицы весов суммой более низкого ранга, что позволяет сократить количество параметров и вычислений при контролируемой ошибке.

📖

термины

Поблочное квантование (Block-wise Quantization)

Стратегия квантования, которая разделяет тензоры весов на более мелкие блоки и применяет независимое квантование к каждому блоку, что лучше сохраняет распределение значений и уменьшает общую ошибку по сравнению с глобальным квантованием.

📖

термины

Структурная разреженность (Structured Sparsity)

Форма прореживания, которая накладывает регулярные паттерны (по строкам, столбцам или блокам) на удаляемые веса, позволяя эффективно использовать аппаратное ускорение на CPU/GPU, в отличие от случайной неструктурированной разреженности.

Глоссарий ИИ

Обучение с учетом квантования (QAT)

Адаптация низкого ранга (LoRA)

8-битное представление с плавающей точкой (FP8)

4-битное целочисленное квантование (INT4)

Компенсация смещения квантования (Q-Bias)

Оптимизация путем поиска по сетке квантования

Спекулятивный вывод (Speculative Inference)

Сингулярное разложение с усечением (Truncated SVD)

Поблочное квантование (Block-wise Quantization)

Структурная разреженность (Structured Sparsity)

Результаты не найдены