Глоссарий ИИ
Полный словарь искусственного интеллекта
Самовнимание
Фундаментальный механизм, позволяющий трансформерам динамически вычислять относительную важность каждого элемента в последовательности по отношению к другим.
Многоголовое внимание
Расширение механизма самовнимания, в котором несколько голов внимания работают параллельно для захвата различных типов отношений в данных.
Позиционное кодирование
Техника, включающая информацию о последовательной позиции в эмбеддинги для компенсации отсутствия рекуррентности в трансформерах.
Архитектура кодировщик-декодировщик
Фундаментальная структура оригинальных трансформеров, объединяющая кодировщик для обработки входных данных и декодировщик для генерации выходных данных.
BERT (Bidirectional Encoder Representations)
Семейство предварительно обученных моделей на основе архитектуры кодировщика только с двунаправленным пониманием контекста.
GPT (Generative Pre-trained Transformer)
Архитектура только с декодером, оптимизированная для авторегрессивной генерации текста, формирующая основу больших языковых моделей.
Трансформеры для обработки изображений (ViT)
Применение архитектур трансформеров для обработки изображений путем разделения изображений на патчи и их обработки как последовательностей.
Механизмы разреженного внимания
Варианты внимания, снижающие вычислительную сложность за счет ограничения связей между элементами последовательности.
Перекрестное внимание
Механизм внимания, в котором запросы поступают из одной последовательности, а ключи и значения - из другой последовательности.
Законы масштабирования трансформеров
Эмпирические принципы, описывающие, как производительность трансформеров меняется в зависимости от размера модели, данных и вычислительных ресурсов.
Анализ голов внимания
Изучение специализированных ролей различных голов внимания в трансформерах для понимания их внутреннего функционирования.
Иерархическое внимание
Архитектура внимания, организованная на нескольких иерархических уровнях для обработки сложных структурированных данных.