Мультимодальные трансформеры
BLIP
Фреймворк Bootstrapping Language-Image Pre-training, генерирующий псевдо-подписи для фильтрации шума и улучшения качества данных, использующий мультимодальный энкодер и декодер «изображение-текст».
← Назад