Архитектура кодировщик-декодировщик
Механизм перекрестного внимания
Процесс в декодере, который позволяет ему сосредоточиться на конкретных частях выхода кодировщика, взвешивая важность каждого входного токена для генерации текущего выходного токена.
← Назад