Глоссарий ИИ
Полный словарь искусственного интеллекта
Анализ голов внимания (Attention Head Analysis)
Процесс проверки и интерпретации весов внимания, созданных каждой головой, для понимания конкретных паттернов и отношений, которые каждая голова научилась улавливать.
Специализация голов (Head Specialization)
Феномен, при котором различные головы внимания в одном слое специализируются на изучении различных типов лингвистических отношений, таких как синтаксис, семантика или зависимости на дальних расстояниях.
Матрица весов внимания (Attention Weight Matrix)
Квадратная матрица, генерируемая головой внимания, где каждый элемент (i, j) представляет оценку важности или релевантности токена j для токена i в контексте последовательности.
Карта внимания (Attention Map)
Визуализация матрицы весов внимания, часто в виде тепловой карты, которая графически иллюстрирует отношения фокуса головы внимания на входной последовательности.
Синтаксическая роль (Syntactic Role)
Тип отношения, такой как связь между подлежащим и сказуемым или зависимость между существительным и его прилагательным, которую специализированная голова внимания может научиться обнаруживать и моделировать.
Позиционная роль (Positional Role)
Функция головы внимания, которая в основном концентрируется на отношениях относительной позиции между токенами, помогая модели понимать порядок слов независимо от их семантического содержания.
Позиционная голова (Positional Head)
Голова внимания, веса внимания которой выявляют паттерны, тесно связанные с относительным расстоянием между токенами, действуя как механизм для кодирования последовательной структуры.
Голова подслова (Subword Head)
Специализированная голова внимания для управления отношениями между фрагментами слов (подсловами), созданными токенизаторами, такими как BPE, помогающая восстанавливать лексическую согласованность.
Голова извлечения (Retrieval Head)
Голова внимания, идентифицированная в больших моделях, которая ведет себя как механизм извлечения информации, сильно связываясь с конкретными токенами, которые действуют как 'ключи' для запомненных знаний.
Избыточность голов (Head Redundancy)
Наблюдение, согласно которому некоторые головы внимания в переопределенной модели изучают очень похожие или идентичные функции, что предполагает потенциальную неэффективность в использовании ресурсов.
Обрезка голов внимания (Attention Head Pruning)
Техника сжатия модели, которая заключается в идентификации и удалении голов внимания, считающихся избыточными или маловажными, для уменьшения размера модели и вычислительных затрат с минимальным влиянием на производительность.
Оценка важности головы (Head Importance Score)
Количественная метрика, часто полученная из чувствительности потерь или производительности модели к удалению головы, используемая для классификации голов по их вкладу в общее функционирование.
Анализ индукции голов (Head Induction Analysis)
Методология, заключающаяся в обучении простого супервизорного модели (например, линейного классификатора) на выходах головы внимания для обнаружения базовой функции, которую эта голова научилась представлять.
Диагональный паттерн внимания (Diagonal Attention Pattern)
Паттерн весов внимания, где голова концентрируется в основном на самом токене (самовнимание), часто наблюдаемый в нижних слоях для уточнения локальных представлений.
Вертикальный паттерн внимания (Vertical Attention Pattern)
Паттерн, где голова внимания концентрируется на конкретном опорном токене (часто токен начала последовательности или маркер класса) для всех позиций, агрегируя информацию для задачи классификации.
Блочный паттерн внимания (Block Attention Pattern)
Паттерн, где голова внимания концентрируется на смежных сегментах последовательности, указывая на специализацию в обработке локальных фраз или клауз.
Голова перевода (Translation Head)
В многоязычных моделях, голова внимания, которая учится выравнивать слова и фразы между разными языками, облегчая перенос лингвистических знаний.
Механизм многоголового внимания (Multi-Head Attention)
Фундаментальный компонент Transformers, который выполняет в параллель несколько голов внимания, конкатенирует их выходы и проецирует их, чтобы позволить модели одновременно концентрироваться на различных позициях и пространствах представлений.
Интерпретируемость голов (Head Interpretability)
Область исследований, направленная на разработку методов для понимания, количественной оценки и визуализации специфической функции каждой головы внимания с целью демистификации внутреннего функционирования моделей Transformer.