Transformers Multimodais
Flamingo
Modelo visão-linguagem que adapta transformers pré-treinados existentes com módulos de atenção visual-linguística. Permite o aprendizado com poucos exemplos (few-shot learning) em tarefas complexas de compreensão multimodal sem retreinamento completo.
← Voltar