Traduction Multimodale
Audio-Visual Learning
Apprentissage automatique combinant simultanément des informations audio et vidéo pour améliorer la compréhension des scènes multimodales. Cette approche exploite la corrélation naturelle entre sons et événements visuels.
← رجوع