Глоссарий ИИ
Полный словарь искусственного интеллекта
Авторегрессионная модель
Архитектура генеративной модели, которая предсказывает следующий токен на основе всех предыдущих токенов, строя последовательность итеративно и последовательно.
Окно контекста
Максимальный размер последовательности, который модель может обрабатывать одновременно, ограничивая количество исторической информации, доступной для предсказания.
Предсказание следующего токена
Фундаментальная цель авторегрессионных моделей, заключающаяся в максимизации условной вероятности P(токен_t|токены_1...t-1).
Сэмплирование с температурой
Техника генерации, контролирующая степень случайности в выборе следующего токена путем корректировки распределения вероятностей логитов.
Топ-k сэмплирование
Метод генерации, ограничивающий выбор k наиболее вероятными токенами, избегая токенов с низкой вероятностью при сохранении разнообразия.
Ядерное сэмплирование
Динамическая стратегия выбора, основанная на кумулятивной вероятностной массе, адаптирующая количество кандидатов в зависимости от уверенности модели.
Поиск по лучу
Алгоритм декодирования, одновременно исследующий несколько кандидатов последовательностей для нахождения глобально наиболее вероятной последовательности.
Каузальная языковая модель
Тип авторегрессионной модели, обученной предсказывать будущие токены на основе прошлого контекста, без доступа к будущим токенам во время обучения.
Трансформер только с декодером
Нейронная архитектура, использующая только слои декодера с каузальным маскированием, предпочтительная для современных авторегрессионных языковых моделей.
Жадное декодирование
Стратегия генерации, систематически выбирающая токен с максимальной вероятностью на каждом шаге, обеспечивающая согласованность, но могущая не хватать креативности.
Авторегрессионная генерация
Процесс текстовой генерации, где каждый произведенный токен немедленно добавляется в контекст для влияния на генерацию следующих токенов.
Дообучение языковой модели
Процесс специализированной адаптации предварительно обученной авторегрессионной модели на специфических данных для улучшения ее производительности в целевой области.
Обучение Zero-shot
Способность авторегрессионных моделей выполнять задачи, не виденные во время обучения, используя их общие знания языка.
KV-кэш
Механизм оптимизации, сохраняющий ключевые-значимые состояния предыдущих токенов для ускорения последовательной авторегрессионной генерации.
Переменная длина последовательности
Способность авторегрессионных моделей генерировать последовательности разной длины, динамически адаптированные в соответствии с генерируемым содержанием.