Traduction Multimodale
Vision-Language Models
Modèles d'IA conçus pour comprendre et générer du contenu combinant informations visuelles et linguistiques, comme ViT, BLIP ou ALIGN. Ils apprennent des représentations jointes via un pré-entraînement sur de vastes corpus image-texte.
← Volver