Transformers Multimodais
FLAVA (Foundational Language and Vision Alignment)
Modelo fundacional multimodal unificado com uma arquitetura Transformer simples, pré-treinado simultaneamente em dados apenas de texto, apenas de imagem e multimodais.
← Voltar