Transformers Multimodaux
FLAVA (Foundational Language and Vision Alignment)
Modèle fondationnel multimodal unifié avec une architecture Transformer simple, pré-entraîné simultanément sur des données texte uniquement, image uniquement et multimodales.
← Wstecz