Глоссарий ИИ
Полный словарь искусственного интеллекта
Многоголовое Самовнимание
Механизм, в котором модель многократно вычисляет внимание параллельно с различными линейными проекциями запросов, ключей и значений, позволяя захватывать разнообразные зависимости на разных позициях последовательности.
Запрос (Query)
Вектор, представляющий текущий элемент, для которого вычисляется внимание, используемый для взаимодействия с ключами с целью определения важности каждого значения в последовательности.
Ключ (Key)
Вектор, связанный с каждым элементом последовательности, используемый для сравнения с запросом с целью вычисления оценки внимания и определения релевантности каждого элемента.
Значение (Value)
Вектор, содержащий фактическую информацию каждого элемента последовательности, взвешенный весами внимания для получения выхода механизма внимания.
Линейная Проекция
Операция матричного умножения, применяемая к запросам, ключам и значениям в каждой голове внимания для их проекции в подпространства меньшей размерности, позволяющая получать разнообразные представления.
Размерность Модели (d_model)
Размер пространства эмбеддингов, используемого для представлений запросов, ключей и значений после конкатенации голов, ключевой параметр архитектуры Transformer.
Размерность Головы (d_k)
Уменьшенная размерность, в которую проецируются запросы и ключи в каждой голове внимания, вычисляемая как размерность модели, деленная на количество голов.
Размерность Значения (d_v)
Размерность, в которую проецируются векторы значений в каждой голове внимания, часто идентичная размерности головы (d_k) для упрощения архитектуры.
Softmax по Ключам
Применение функции softmax к оценкам внимания (скалярным произведениям запрос-ключ) для получения нормализованного распределения вероятностей, служащего весами внимания.
Механизм Параллельного Внимания
Реализация, в которой все головы внимания вычисляются одновременно с использованием групповых матричных операций, оптимизируя вычислительную эффективность на GPU.
Подпространство Представления
Векторное пространство меньшей размерности, в которое каждая голова внимания проецирует данные, позволяя захватывать различные типы отношений и паттернов в данных.
Веса Внимания (Attention Weights)
Нормализованные коэффициенты, полученные из функции softmax, которые количественно определяют важность каждого значения для построения вывода текущего элемента.
Дальнодействующая Зависимость
Способность механизма самовнимания непосредственно моделировать отношения между удаленными токенами в последовательности, преодолевая ограничение рекуррентных сетей.