Transformers Multimodais
ALIGN
Modelo contrastivo imagem-texto treinado em um bilhão de pares ruidosos filtrados automaticamente. Demonstra que a quantidade de dados pode compensar o ruído na aprendizagem multimodal em larga escala.
← Voltar