Мультимодальные трансформеры
BridgeTower
Архитектура, вводящая «мосты» между унимодальными энкодерами для облегчения глубокого взаимодействия между модальностями, оптимизирующая обмен информацией между текстом и изображением на различных уровнях.
← Назад