Transformers Multimodaux
Transformer Multimodal
Architecture de réseau neuronal de type Transformer conçue pour traiter et intégrer simultanément des données issues de plusieurs modalités, telles que le texte, l'image, l'audio ou la vidéo, dans un espace de représentation commun.
← Terug