Transformers pour Audio
Cross-Attention Audio-Texte
Un mécanisme d'attention où les requêtes proviennent d'une modalité (ex: texte) et les clés/valeurs d'une autre (ex: audio), fondamental pour les modèles de reconnaissance vocale et de narration audio.
← Kembali