Мультимодальные трансформеры
Модель Flamingo
Модель «зрение-язык» с 80 миллиардами параметров, использующая предварительно обученные адаптеры и внимание с затвором для эффективного объединения Vision Transformers и языковых моделей без полного переобучения.
← Назад