Анализ голов внимания

📖

термины

Анализ голов внимания (Attention Head Analysis)

Процесс проверки и интерпретации весов внимания, созданных каждой головой, для понимания конкретных паттернов и отношений, которые каждая голова научилась улавливать.

📖

термины

Специализация голов (Head Specialization)

Феномен, при котором различные головы внимания в одном слое специализируются на изучении различных типов лингвистических отношений, таких как синтаксис, семантика или зависимости на дальних расстояниях.

📖

термины

Матрица весов внимания (Attention Weight Matrix)

Квадратная матрица, генерируемая головой внимания, где каждый элемент (i, j) представляет оценку важности или релевантности токена j для токена i в контексте последовательности.

📖

термины

Карта внимания (Attention Map)

Визуализация матрицы весов внимания, часто в виде тепловой карты, которая графически иллюстрирует отношения фокуса головы внимания на входной последовательности.

📖

термины

Синтаксическая роль (Syntactic Role)

Тип отношения, такой как связь между подлежащим и сказуемым или зависимость между существительным и его прилагательным, которую специализированная голова внимания может научиться обнаруживать и моделировать.

📖

термины

Позиционная роль (Positional Role)

Функция головы внимания, которая в основном концентрируется на отношениях относительной позиции между токенами, помогая модели понимать порядок слов независимо от их семантического содержания.

📖

термины

Позиционная голова (Positional Head)

Голова внимания, веса внимания которой выявляют паттерны, тесно связанные с относительным расстоянием между токенами, действуя как механизм для кодирования последовательной структуры.

📖

термины

Голова подслова (Subword Head)

Специализированная голова внимания для управления отношениями между фрагментами слов (подсловами), созданными токенизаторами, такими как BPE, помогающая восстанавливать лексическую согласованность.

📖

термины

Голова извлечения (Retrieval Head)

Голова внимания, идентифицированная в больших моделях, которая ведет себя как механизм извлечения информации, сильно связываясь с конкретными токенами, которые действуют как 'ключи' для запомненных знаний.

📖

термины

Избыточность голов (Head Redundancy)

Наблюдение, согласно которому некоторые головы внимания в переопределенной модели изучают очень похожие или идентичные функции, что предполагает потенциальную неэффективность в использовании ресурсов.

📖

термины

Обрезка голов внимания (Attention Head Pruning)

Техника сжатия модели, которая заключается в идентификации и удалении голов внимания, считающихся избыточными или маловажными, для уменьшения размера модели и вычислительных затрат с минимальным влиянием на производительность.

📖

термины

Оценка важности головы (Head Importance Score)

Количественная метрика, часто полученная из чувствительности потерь или производительности модели к удалению головы, используемая для классификации голов по их вкладу в общее функционирование.

📖

термины

Анализ индукции голов (Head Induction Analysis)

Методология, заключающаяся в обучении простого супервизорного модели (например, линейного классификатора) на выходах головы внимания для обнаружения базовой функции, которую эта голова научилась представлять.

📖

термины

Диагональный паттерн внимания (Diagonal Attention Pattern)

Паттерн весов внимания, где голова концентрируется в основном на самом токене (самовнимание), часто наблюдаемый в нижних слоях для уточнения локальных представлений.

📖

термины

Вертикальный паттерн внимания (Vertical Attention Pattern)

Паттерн, где голова внимания концентрируется на конкретном опорном токене (часто токен начала последовательности или маркер класса) для всех позиций, агрегируя информацию для задачи классификации.

📖

термины

Блочный паттерн внимания (Block Attention Pattern)

Паттерн, где голова внимания концентрируется на смежных сегментах последовательности, указывая на специализацию в обработке локальных фраз или клауз.

📖

термины

Голова перевода (Translation Head)

В многоязычных моделях, голова внимания, которая учится выравнивать слова и фразы между разными языками, облегчая перенос лингвистических знаний.

📖

термины

Механизм многоголового внимания (Multi-Head Attention)

Фундаментальный компонент Transformers, который выполняет в параллель несколько голов внимания, конкатенирует их выходы и проецирует их, чтобы позволить модели одновременно концентрироваться на различных позициях и пространствах представлений.

📖

термины

Интерпретируемость голов (Head Interpretability)

Область исследований, направленная на разработку методов для понимания, количественной оценки и визуализации специфической функции каждой головы внимания с целью демистификации внутреннего функционирования моделей Transformer.

Глоссарий ИИ