Многоголовая Само-Внимание

📖

термины

Многоголовое Самовнимание

Механизм, в котором модель многократно вычисляет внимание параллельно с различными линейными проекциями запросов, ключей и значений, позволяя захватывать разнообразные зависимости на разных позициях последовательности.

📖

термины

Запрос (Query)

Вектор, представляющий текущий элемент, для которого вычисляется внимание, используемый для взаимодействия с ключами с целью определения важности каждого значения в последовательности.

📖

термины

Ключ (Key)

Вектор, связанный с каждым элементом последовательности, используемый для сравнения с запросом с целью вычисления оценки внимания и определения релевантности каждого элемента.

📖

термины

Значение (Value)

Вектор, содержащий фактическую информацию каждого элемента последовательности, взвешенный весами внимания для получения выхода механизма внимания.

📖

термины

Линейная Проекция

Операция матричного умножения, применяемая к запросам, ключам и значениям в каждой голове внимания для их проекции в подпространства меньшей размерности, позволяющая получать разнообразные представления.

📖

термины

Размерность Модели (d_model)

Размер пространства эмбеддингов, используемого для представлений запросов, ключей и значений после конкатенации голов, ключевой параметр архитектуры Transformer.

📖

термины

Размерность Головы (d_k)

Уменьшенная размерность, в которую проецируются запросы и ключи в каждой голове внимания, вычисляемая как размерность модели, деленная на количество голов.

📖

термины

Размерность Значения (d_v)

Размерность, в которую проецируются векторы значений в каждой голове внимания, часто идентичная размерности головы (d_k) для упрощения архитектуры.

📖

термины

Softmax по Ключам

Применение функции softmax к оценкам внимания (скалярным произведениям запрос-ключ) для получения нормализованного распределения вероятностей, служащего весами внимания.

📖

термины

Механизм Параллельного Внимания

Реализация, в которой все головы внимания вычисляются одновременно с использованием групповых матричных операций, оптимизируя вычислительную эффективность на GPU.

📖

термины

Подпространство Представления

Векторное пространство меньшей размерности, в которое каждая голова внимания проецирует данные, позволяя захватывать различные типы отношений и паттернов в данных.

📖

термины

Веса Внимания (Attention Weights)

Нормализованные коэффициенты, полученные из функции softmax, которые количественно определяют важность каждого значения для построения вывода текущего элемента.

📖

термины

Дальнодействующая Зависимость

Способность механизма самовнимания непосредственно моделировать отношения между удаленными токенами в последовательности, преодолевая ограничение рекуррентных сетей.

Глоссарий ИИ

Многоголовое Самовнимание

Запрос (Query)

Ключ (Key)

Значение (Value)

Линейная Проекция

Размерность Модели (d_model)

Размерность Головы (d_k)

Размерность Значения (d_v)

Softmax по Ключам

Механизм Параллельного Внимания

Подпространство Представления

Веса Внимания (Attention Weights)

Дальнодействующая Зависимость

Результаты не найдены