Transformers pour Audio

📖

Begriffe

Audio Spectrogram Transformer (AST)

Une architecture Transformer qui applique directement des mécanismes d'attention sur des représentations de spectrogrammes audio, traitant le signal comme une image 2D pour des tâches de classification.

📖

Begriffe

Conformer

Une architecture de modèle hybride pour la reconnaissance vocale qui combine des modules de convolution, d'auto-attention et de feed-forward pour capturer à la fois les dépendances locales et globales dans les séquences audio.

📖

Begriffe

Wav2Vec 2.0

Un framework d'apprentissage auto-supervisé pour la reconnaissance vocale pré-entraîné sur des données audio brutes, utilisant une quantification vectorielle pour apprendre des représentations discrètes du langage parlé.

📖

Begriffe

HuBERT

Hierarchical Hidden-Unit BERT, un modèle auto-supervisé qui apprend des représentations audio hiérarchiques en prédisant des unités latentes à partir de clusters de caractéristiques acoustiques.

📖

Begriffe

Jukebox

Un modèle génératif basé sur Transformer et VQ-VAE capable de produire de la musique brute avec des voix à haute fidélité, en conditionnant la génération sur des métadonnées artistiques et génériques.

📖

Begriffe

Music Transformer

Une architecture Transformer avec un mécanisme d'attention relatif optimisée pour la modélisation de séquences musicales longues, capable de générer des morceaux de musique avec une cohérence structurelle.

📖

Begriffe

SpecAugment

Une technique de régularisation pour les modèles audio appliquant des transformations de masquage sur les spectrogrammes (fréquence et temps) pour améliorer la robustesse du modèle face à la corruption du signal.

📖

Begriffe

Self-Attention sur Séquences Audio

L'application du mécanisme d'auto-attention sur des séquences de vecteurs acoustiques, permettant au modèle de pondérer dynamiquement l'importance de différentes parties du signal audio pour la prédiction.

📖

Begriffe

Tokenisation Audio

Le processus de discrétisation d'un signal audio continu en une séquence de tokens discrets, souvent via un VQ-VAE, pour le rendre compatible avec les architectures Transformer basées sur des tokens.

📖

Begriffe

Cross-Attention Audio-Texte

Un mécanisme d'attention où les requêtes proviennent d'une modalité (ex: texte) et les clés/valeurs d'une autre (ex: audio), fondamental pour les modèles de reconnaissance vocale et de narration audio.

📖

Begriffe

Perceiver IO Audio

Une architecture basée sur Perceiver IO qui traite des séquences audio de longueur variable en les transformant en un espace latent de taille fixe avant de générer des prédictions, efficace pour les tâches de classification et de transcription.

📖

Begriffe

Squeeze-and-Excitation Audio

Un bloc d'attention de canal adapté aux données audio, apprenant à recalibrer dynamiquement les réponses caractéristiques des cartes de spectrogrammes en modélisant les interdépendances entre les canaux.

📖

Begriffe

Transformer Convolutif pour Audio (CTT)

Une architecture qui intègre des convolutions dans le bloc Transformer pour capturer efficacement les motifs locaux dans les spectrogrammes avant d'appliquer l'auto-attention pour les dépendances globales.

📖

Begriffe

Entraînement Contrastif Audio (CLAP)

Une méthode d'apprentissage multimodal qui utilise une perte contrastive pour aligner les représentations audio et textuelles dans un espace partagé, permettant le zero-shot classification audio.

📖

Begriffe

Délai Causal dans les Transformers Audio

Une contrainte d'architecture où l'attention pour un pas de temps donné ne peut se faire que sur les pas de temps présents et passés, essentielle pour les modèles de streaming et de génération audio en temps réel.

📖

Begriffe

Positional Encoding 2D pour Spectrogrammes

Une technique de codage de position qui encode les informations spatiales (temps et fréquence) pour les tokens extraits de spectrogrammes, permettant au Transformer de comprendre la structure 2D du signal audio.

📖

Begriffe

Fine-tuning sur Tâches Audio Spécifiques

Le processus d'adaptation d'un Transformer audio pré-entraîné sur une large base de données à une tâche ciblée comme la détection d'événements sonores ou l'identification du locuteur, en gelant ou en ré-entraînant sélectivement les couches.

📖

Begriffe

Modèle de Langage Audio (AudioLM)

Une approche qui traite la génération audio comme une tâche de modélisation de langage, en prédisant des tokens acoustiques discrets avec un Transformer, similaire à la manière dont les modèles de langage génèrent du texte.

KI-Glossar

Audio Spectrogram Transformer (AST)

Conformer

Wav2Vec 2.0

HuBERT

Jukebox

Music Transformer

SpecAugment

Self-Attention sur Séquences Audio

Tokenisation Audio

Cross-Attention Audio-Texte

Perceiver IO Audio

Squeeze-and-Excitation Audio

Transformer Convolutif pour Audio (CTT)

Entraînement Contrastif Audio (CLAP)

Délai Causal dans les Transformers Audio

Positional Encoding 2D pour Spectrogrammes

Fine-tuning sur Tâches Audio Spécifiques

Modèle de Langage Audio (AudioLM)

Keine Ergebnisse gefunden