Transformers pour Audio

📖

个术语

Audio Spectrogram Transformer (AST)

Une architecture Transformer qui applique directement des mécanismes d'attention sur des représentations de spectrogrammes audio, traitant le signal comme une image 2D pour des tâches de classification.

📖

个术语

Conformer

Une architecture de modèle hybride pour la reconnaissance vocale qui combine des modules de convolution, d'auto-attention et de feed-forward pour capturer à la fois les dépendances locales et globales dans les séquences audio.

📖

个术语

Wav2Vec 2.0

Un framework d'apprentissage auto-supervisé pour la reconnaissance vocale pré-entraîné sur des données audio brutes, utilisant une quantification vectorielle pour apprendre des représentations discrètes du langage parlé.

📖

个术语

HuBERT

Hierarchical Hidden-Unit BERT, un modèle auto-supervisé qui apprend des représentations audio hiérarchiques en prédisant des unités latentes à partir de clusters de caractéristiques acoustiques.

📖

个术语

Jukebox

Un modèle génératif basé sur Transformer et VQ-VAE capable de produire de la musique brute avec des voix à haute fidélité, en conditionnant la génération sur des métadonnées artistiques et génériques.

📖

个术语

Music Transformer

Une architecture Transformer avec un mécanisme d'attention relatif optimisée pour la modélisation de séquences musicales longues, capable de générer des morceaux de musique avec une cohérence structurelle.

📖

个术语

SpecAugment

Une technique de régularisation pour les modèles audio appliquant des transformations de masquage sur les spectrogrammes (fréquence et temps) pour améliorer la robustesse du modèle face à la corruption du signal.

📖

个术语

Self-Attention sur Séquences Audio

L'application du mécanisme d'auto-attention sur des séquences de vecteurs acoustiques, permettant au modèle de pondérer dynamiquement l'importance de différentes parties du signal audio pour la prédiction.

📖

个术语

Tokenisation Audio

Le processus de discrétisation d'un signal audio continu en une séquence de tokens discrets, souvent via un VQ-VAE, pour le rendre compatible avec les architectures Transformer basées sur des tokens.

📖

个术语

Cross-Attention Audio-Texte

Un mécanisme d'attention où les requêtes proviennent d'une modalité (ex: texte) et les clés/valeurs d'une autre (ex: audio), fondamental pour les modèles de reconnaissance vocale et de narration audio.

📖

个术语

Perceiver IO Audio

Une architecture basée sur Perceiver IO qui traite des séquences audio de longueur variable en les transformant en un espace latent de taille fixe avant de générer des prédictions, efficace pour les tâches de classification et de transcription.

📖

个术语

Squeeze-and-Excitation Audio

Un bloc d'attention de canal adapté aux données audio, apprenant à recalibrer dynamiquement les réponses caractéristiques des cartes de spectrogrammes en modélisant les interdépendances entre les canaux.

📖

个术语

Transformer Convolutif pour Audio (CTT)

Une architecture qui intègre des convolutions dans le bloc Transformer pour capturer efficacement les motifs locaux dans les spectrogrammes avant d'appliquer l'auto-attention pour les dépendances globales.

📖

个术语

Entraînement Contrastif Audio (CLAP)

Une méthode d'apprentissage multimodal qui utilise une perte contrastive pour aligner les représentations audio et textuelles dans un espace partagé, permettant le zero-shot classification audio.

📖

个术语

Délai Causal dans les Transformers Audio

Une contrainte d'architecture où l'attention pour un pas de temps donné ne peut se faire que sur les pas de temps présents et passés, essentielle pour les modèles de streaming et de génération audio en temps réel.

📖

个术语

Positional Encoding 2D pour Spectrogrammes

Une technique de codage de position qui encode les informations spatiales (temps et fréquence) pour les tokens extraits de spectrogrammes, permettant au Transformer de comprendre la structure 2D du signal audio.

📖

个术语

Fine-tuning sur Tâches Audio Spécifiques

Le processus d'adaptation d'un Transformer audio pré-entraîné sur une large base de données à une tâche ciblée comme la détection d'événements sonores ou l'identification du locuteur, en gelant ou en ré-entraînant sélectivement les couches.

📖

个术语

Modèle de Langage Audio (AudioLM)

Une approche qui traite la génération audio comme une tâche de modélisation de langage, en prédisant des tokens acoustiques discrets avec un Transformer, similaire à la manière dont les modèles de langage génèrent du texte.

AI 词汇表