Глоссарий ИИ
Полный словарь искусственного интеллекта
Audio Transformer
Architecture Transformer adaptée pour le traitement des signaux audio utilisant des mécanismes d'attention sur des représentations temporelles ou fréquentielles des données audio.
Spectrogram Transformer
Variante de Transformer opérant directement sur des spectrogrammes en les découpant en patches traités comme des séquences d'embeddings pour la classification audio.
Wav2Vec 2.0
Modèle d'apprentissage auto-supervisé pour la représentation vocale utilisant une architecture Transformer avec masking quantifié sur les waveforms brutes.
Whisper
Modèle Transformer robuste pour la reconnaissance vocale et la traduction speech-to-text entraîné sur 680k heures de données audio transcrits avec weak supervision.
AudioLM
Modèle language-like pour la génération audio utilisant Transformers hiérarchiques sur des représentations discrètes acoustic et semantic.
Encodec
Neural codec basé sur Transformer avec quantification résiduelle pour la compression et reconstruction audio haute fidélité.
VALL-E
Modèle de synthesis vocale neural codec language utilisant Transformers pour générer parole haute qualité à partir de prompts vocaux de 3 secondes.
Wav2Vec-U
Approche unsupervised pour ASR utilisant des modèles wav2vec 2.0 pré-entraînés sans transcription, exploitant les alignements phonétiques implicites.
MusicGen
Modèle Transformer conditionnel pour la génération musicale utilisant des tokenizers audio et contrôlable par des descriptions textuelles ou mélodies.
MERT
Music Envelope Representation Transformer, modèle pré-entraîné auto-supervisé pour la compréhension musicale utilisant des représentations multi-échelles.
Spec2Vec
Architecture Transformer convertissant des spectrogrammes en embeddings vectoriels pour des tâches de classification et retrieval audio.