قاموس الذكاء الاصطناعي
القاموس الكامل للذكاء الاصطناعي
محول مخطط الصوت (AST)
هندسة محول تُطبّق مباشرة آليات الانتباه على تمثيلات مخططات الصوت، وتعتبر الإشارة كصورة ثنائية الأبعاد لمهام التصنيف.
Conformer
هندسة نموذجية هجينة للاستيعاب الصوتي تجمع بين وحدات التفاف، والانتباه الذاتي، والتغذية الأمامية لالتقاط كل من التبعيات المحلية والعالمية في تسلسلات الصوت.
Wav2Vec 2.0
إطار عمل للتعلم شبه المُشرف في الاستيعاب الصوتي مُدرّب مسبقاً على بيانات صوتية خام، ويستخدم الكميّة المتجهة لتعلم تمثيلات منفصلة للكلام المنطوق.
HuBERT
BERT للوحدة المخفية الهرمية، وهو نموذج شبه مُشرف يتعلم تمثيلات صوتية هرمية من خلال التنبؤ بالوحدات الكامنة من مجموعات ميزات صوتية.
Jukebox
نموذج توليدي مبني على محول و VQ-VAE قادر على إنتاج موسيقى صافية بصوت عالٍ من خلال تكييف التوليد مع البيانات الوصفية للفنان والنوع.
Music Transformer
هندسة محول مع آلية انتباه نسبية محسّنة لتمثيل تسلسلات موسيقية طويلة، قادرة على توليد مقاطع موسيقية بانسجام هيكلها.
SpecAugment
تقنية تنظيم لتحسين النماذج الصوتية من خلال تطبيق تحويلات قناع على مخططات الصوت (التردد والزمن) لتحسين قوة النموذج أمام تشويه الإشارة.
الانتباه الذاتي على تسلسلات الصوت
تطبيق آلية الانتباه الذاتي على تسلسلات متجهات الصوت، مما يسمح للنموذج بوزن أهمية أجزاء مختلفة من الإشارة الصوتية ديناميكيًا للتنبؤ.
Tokenisation Audio
Le processus de discrétisation d'un signal audio continu en une séquence de tokens discrets, souvent via un VQ-VAE, pour le rendre compatible avec les architectures Transformer basées sur des tokens.
Cross-Attention Audio-Texte
Un mécanisme d'attention où les requêtes proviennent d'une modalité (ex: texte) et les clés/valeurs d'une autre (ex: audio), fondamental pour les modèles de reconnaissance vocale et de narration audio.
Perceiver IO Audio
Une architecture basée sur Perceiver IO qui traite des séquences audio de longueur variable en les transformant en un espace latent de taille fixe avant de générer des prédictions, efficace pour les tâches de classification et de transcription.
Squeeze-and-Excitation Audio
Un bloc d'attention de canal adapté aux données audio, apprenant à recalibrer dynamiquement les réponses caractéristiques des cartes de spectrogrammes en modélisant les interdépendances entre les canaux.
Transformer Convolutif pour Audio (CTT)
Une architecture qui intègre des convolutions dans le bloc Transformer pour capturer efficacement les motifs locaux dans les spectrogrammes avant d'appliquer l'auto-attention pour les dépendances globales.
Entraînement Contrastif Audio (CLAP)
Une méthode d'apprentissage multimodal qui utilise une perte contrastive pour aligner les représentations audio et textuelles dans un espace partagé, permettant le zero-shot classification audio.
Délai Causal dans les Transformers Audio
Une contrainte d'architecture où l'attention pour un pas de temps donné ne peut se faire que sur les pas de temps présents et passés, essentielle pour les modèles de streaming et de génération audio en temps réel.
Positional Encoding 2D pour Spectrogrammes
Une technique de codage de position qui encode les informations spatiales (temps et fréquence) pour les tokens extraits de spectrogrammes, permettant au Transformer de comprendre la structure 2D du signal audio.
Fine-tuning sur Tâches Audio Spécifiques
Le processus d'adaptation d'un Transformer audio pré-entraîné sur une large base de données à une tâche ciblée comme la détection d'événements sonores ou l'identification du locuteur, en gelant ou en ré-entraînant sélectivement les couches.
Modèle de Langage Audio (AudioLM)
Une approche qui traite la génération audio comme une tâche de modélisation de langage, en prédisant des tokens acoustiques discrets avec un Transformer, similaire à la manière dont les modèles de langage génèrent du texte.