Traduction Multimodale
Image Captioning
Génération automatique de descriptions textuelles décrivant le contenu d'images, combinant vision par ordinateur et traitement du langage naturel. Les modèles modernes utilisent des encodeurs CNN ou ViT et des décodeurs transformer.
← Retour