Глоссарий ИИ
Полный словарь искусственного интеллекта
Нормализация по слоям
Техника регуляризации, стабилизирующая обучение путем нормализации активаций каждого слоя, применяемая до или после подуровней внимания и прямого распространения.
Механизм маскирования
Процедура, предотвращающая обращение позиций к будущим токенам при авторегрессивном декодировании, и/или обработку токенов заполнения в последовательностях переменной длины.
Проекция Query-Key-Value
Линейное преобразование входных эмбеддингов в три отдельные матрицы (Q, K, V), используемые для вычисления весов внимания по формуле softmax(QK^T/√d_k)V.
Синусоидальное позиционное кодирование
Метод позиционного кодирования, использующий синусоидальные функции различных частот, позволяющий модели экстраполировать на длины последовательностей, не встречавшиеся при обучении.
Архитектура только с кодировщиком
Вариант архитектуры Transformer, использующий только стек кодировщиков, предназначенный для задач понимания, таких как классификация или анализ тональности (например, BERT).
Архитектура только с декодером
Вариант архитектуры Transformer, использующий только стек декодеров с причинным маскированием, оптимизированный для авторегрессивной генерации текста (например, GPT).
Квадратичный эффект
Вычислительная сложность и потребление памяти O(n²) стандартного механизма внимания по отношению к длине последовательности n, являющиеся основным ограничением архитектуры Transformer.