Архитектура кодировщик-декодировщик

📖

термины

Двунаправленный кодировщик

Компонент, который обрабатывает всю входную последовательность одновременно, позволяя каждому токену обращать внимание на все остальные токены, как предыдущие, так и будущие, для полного контекстуального понимания.

📖

термины

Авторегрессионный декодер

Механизм генерации, при котором декодер создает выходную последовательность токен за токеном, основываясь только на ранее сгенерированных токенах и контекстуальном представлении кодировщика.

📖

термины

Механизм перекрестного внимания

Процесс в декодере, который позволяет ему сосредоточиться на конкретных частях выхода кодировщика, взвешивая важность каждого входного токена для генерации текущего выходного токена.

📖

термины

Каузальное маскирование

Техника, применяемая в декодере для предотвращения того, чтобы каждая позиция обращала внимание на будущие позиции, обеспечивая таким образом авторегрессионный характер генерации и отсутствие утечки информации.

📖

термины

Прямая передача (Полносвязная сеть)

Полностью связанная нейронная сеть, применяемая к каждой позиции независимо после механизма внимания, обеспечивающая нелинейное преобразование и проекцию в пространство более высокой размерности.

📖

термины

Нормализация по слоям (Layer Normalization)

Техника регуляризации, которая стабилизирует активации путем нормализации характеристик для каждого примера индивидуально, ускоряя сходимость и улучшая общую производительность модели.

📖

термины

Узкое место кодировщика

Векторное представление фиксированной размерности, часто окончательный выход кодировщика, которое сжимает всю информацию из входной последовательности и служит единым контекстом для декодера при генерации.

📖

термины

Вложения токенов

Плотные векторы высокой размерности, которые представляют каждый дискретный токен из словаря в непрерывном пространстве, захватывая семантическую и синтаксическую информацию, изученную во время обучения.

Глоссарий ИИ

Двунаправленный кодировщик

Авторегрессионный декодер

Механизм перекрестного внимания

Каузальное маскирование

Прямая передача (Полносвязная сеть)

Нормализация по слоям (Layer Normalization)

Узкое место кодировщика

Вложения токенов

Результаты не найдены