Мультимодальные Трансформеры
ALBEF (Выравнивание перед Слиянием)
Модель видение-язык, использующая контрастное предварительное обучение для выравнивания текстовых и визуальных представлений перед их слиянием через со-внимательные слои Transformer, улучшая качество взаимодействия.
← Назад