Глоссарий ИИ
Полный словарь искусственного интеллекта
Обучение с учетом квантования (QAT)
Метод оптимизации, при котором симуляция квантования низкой точности интегрируется в процесс обучения, позволяя модели адаптировать свои веса для минимизации потери производительности, вызванной квантованием.
Адаптация низкого ранга (LoRA)
Эффективный метод адаптации, который замораживает веса предварительно обученной модели и внедряет небольшие разложимые матрицы низкого ранга, что резко снижает количество обучаемых параметентов для тонкой настройки при сохранении производительности.
8-битное представление с плавающей точкой (FP8)
Числовой формат данных очень низкой точности, использующий 8 бит для представления чисел с плавающей точкой, обеспечивающий значительное ускорение на современных графических процессорах (GPU) при сохранении стабильности обучения больших моделей.
4-битное целочисленное квантование (INT4)
Техника экстремального сжатия, представляющая веса модели с помощью 4 бит, требующая использования продвинутых алгоритмов квантования и часто частичного переобучения для компенсации значительной потери информации.
Компенсация смещения квантования (Q-Bias)
Техника настройки после квантования, которая анализирует и систематически исправляет смещения, вызванные снижением точности, часто путем изменения слоев нормализации или смещений линейных слоев.
Оптимизация путем поиска по сетке квантования
Метод систематического исследования различных конфигураций квантования (по слоям, по группам, смешанное) для выявления оптимальной схемы, обеспечивающей наилучший баланс между размером модели, скоростью и точностью для заданной архитектуры.
Спекулятивный вывод (Speculative Inference)
Техника ускорения генеративного вывода, при которой небольшая модель 'черновика' быстро предлагает несколько токенов, которые затем проверяются параллельно большой целевой моделью, что снижает общее количество дорогостоящих этапов вычислений.
Сингулярное разложение с усечением (Truncated SVD)
Применение разложения SVD с последующим усечением наименьших сингулярных чисел для аппроксимации матрицы весов суммой более низкого ранга, что позволяет сократить количество параметров и вычислений при контролируемой ошибке.
Поблочное квантование (Block-wise Quantization)
Стратегия квантования, которая разделяет тензоры весов на более мелкие блоки и применяет независимое квантование к каждому блоку, что лучше сохраняет распределение значений и уменьшает общую ошибку по сравнению с глобальным квантованием.
Структурная разреженность (Structured Sparsity)
Форма прореживания, которая накладывает регулярные паттерны (по строкам, столбцам или блокам) на удаляемые веса, позволяя эффективно использовать аппаратное ускорение на CPU/GPU, в отличие от случайной неструктурированной разреженности.