Глоссарий ИИ
Полный словарь искусственного интеллекта
Тепловая карта внимания (Attention Heatmap)
Графическая визуализация матрицы внимания с использованием цветового градиента для выделения наиболее сильных (обычно красным) и наиболее слабых (обычно синим) связей между токенами.
Оценка выравнивания
Сырое значение, до применения функции softmax, полученное в результате скалярного произведения между запросом (query) и ключом (key) токена, измеряющее их совместимость или взаимную релевантность.
Механизм внимания с пропуском соединения (Skip-Connection Attention)
Наблюдаемое явление, когда голова внимания учится фокусироваться в основном на текущем токене, действуя как пропуск соединения и способствуя стабильности обучения.
Анализ ролей голов (Head Role Analysis)
Систематическое исследование, направленное на характеристику специфической функции каждой головы внимания, такой как захват синтаксических отношений, длинных дистанционных зависимостей или позиционных паттернов.
Позиционное внимание
Компонент внимания, который без явного позиционного кодирования изучается моделью для фокусировки на относительных позициях в последовательности, раскрывая её понимание порядка слов.
Визуализация внимания по слоям (Layer-wise Attention Visualization)
Техника интерпретируемости, заключающаяся в исследовании карт внимания на каждом последующем слое Transformer для понимания того, как представления и отношения эволюционируют в глубине.
Веса перекрёстного внимания (Cross-Attention Weights)
В моделях кодировщик-декодировщик, веса внимания, которые измеряют выравнивание между токенами выходной последовательности (декодировщик) и входной последовательности (кодировщик).
Регуляризация внимания (Attention Regularization)
Техника обучения, которая добавляет штраф к функции потерь для поощрения специфических схем внимания, таких как большее разнообразие между головами или большая разреженность.
BertViz
Инструмент визуализации с открытым исходным кодом, специально разработанный для исследования механизмов внимания в моделях типа BERT, предоставляющий интерактивные представления весов по головам и слоям.
Градиент Внимания
Метод интерпретируемости, который вычисляет градиент выхода модели по отношению к весам внимания для оценки влияния каждого соединения внимания на итоговый прогноз.
Обратное Внимание (Rollback Attention)
Анализ, заключающийся в ручном изменении наблюдаемых весов внимания (например, обнулении некоторых) для наблюдения эффекта на выход модели, тестируя таким образом причинность изученных зависимостей.
Кластеризация Голов Внимания
Подход, группирующий головы внимания на основе схожести их паттернов весов на корпусе текстов, с целью идентификации семейств голов, разделяющих общие лингвистические функции.
Анализ Эффективности Голов (Head Efficiency Analysis)
Количественная оценка вклада каждой головы внимания в общую производительность модели, часто измеряемая снижением производительности при удалении головы (pruning).
Максимальное Внимание
Метрика, которая для каждого исходного токена идентифицирует целевой токен, получающий наибольший вес внимания, предоставляя упрощенное бинарное представление самых сильных выравниваний.