Modèles Multimodaux
Encodage Vision-Language
Mécanisme transformant simultanément des entrées visuelles et textuelles en représentations vectorielles compatibles pour le traitement conjoint.
← Retour