QA Multimodal
Vision-Language Transformer (VLT)
Architecture Transformer pré-entraînée sur de vastes corpus d'images et de textes appariés, conçue pour des tâches de compréhension et de génération multimodales.
← Retour