Transformers Multimodaux
Modèle de Vision-Language (VLM)
Classe spécifique de Transformers multimodaux spécialisés dans la compréhension conjointe du texte et des images, utilisés pour des tâches comme la légende d'image, le VQA ou la recherche d'images par texte.
← Terug