محولات الصوت - مسرد الذكاء الاصطناعي

📖

المصطلحات

محول مخطط الصوت (AST)

هندسة محول تُطبّق مباشرة آليات الانتباه على تمثيلات مخططات الصوت، وتعتبر الإشارة كصورة ثنائية الأبعاد لمهام التصنيف.

📖

المصطلحات

Conformer

هندسة نموذجية هجينة للاستيعاب الصوتي تجمع بين وحدات التفاف، والانتباه الذاتي، والتغذية الأمامية لالتقاط كل من التبعيات المحلية والعالمية في تسلسلات الصوت.

📖

المصطلحات

Wav2Vec 2.0

إطار عمل للتعلم شبه المُشرف في الاستيعاب الصوتي مُدرّب مسبقاً على بيانات صوتية خام، ويستخدم الكميّة المتجهة لتعلم تمثيلات منفصلة للكلام المنطوق.

📖

المصطلحات

HuBERT

BERT للوحدة المخفية الهرمية، وهو نموذج شبه مُشرف يتعلم تمثيلات صوتية هرمية من خلال التنبؤ بالوحدات الكامنة من مجموعات ميزات صوتية.

📖

المصطلحات

Jukebox

نموذج توليدي مبني على محول و VQ-VAE قادر على إنتاج موسيقى صافية بصوت عالٍ من خلال تكييف التوليد مع البيانات الوصفية للفنان والنوع.

📖

المصطلحات

Music Transformer

هندسة محول مع آلية انتباه نسبية محسّنة لتمثيل تسلسلات موسيقية طويلة، قادرة على توليد مقاطع موسيقية بانسجام هيكلها.

📖

المصطلحات

SpecAugment

تقنية تنظيم لتحسين النماذج الصوتية من خلال تطبيق تحويلات قناع على مخططات الصوت (التردد والزمن) لتحسين قوة النموذج أمام تشويه الإشارة.

📖

المصطلحات

الانتباه الذاتي على تسلسلات الصوت

تطبيق آلية الانتباه الذاتي على تسلسلات متجهات الصوت، مما يسمح للنموذج بوزن أهمية أجزاء مختلفة من الإشارة الصوتية ديناميكيًا للتنبؤ.

📖

المصطلحات

Tokenisation Audio

Le processus de discrétisation d'un signal audio continu en une séquence de tokens discrets, souvent via un VQ-VAE, pour le rendre compatible avec les architectures Transformer basées sur des tokens.

📖

المصطلحات

Un mécanisme d'attention où les requêtes proviennent d'une modalité (ex: texte) et les clés/valeurs d'une autre (ex: audio), fondamental pour les modèles de reconnaissance vocale et de narration audio.

📖

المصطلحات

Perceiver IO Audio

Une architecture basée sur Perceiver IO qui traite des séquences audio de longueur variable en les transformant en un espace latent de taille fixe avant de générer des prédictions, efficace pour les tâches de classification et de transcription.

📖

المصطلحات

Squeeze-and-Excitation Audio

Un bloc d'attention de canal adapté aux données audio, apprenant à recalibrer dynamiquement les réponses caractéristiques des cartes de spectrogrammes en modélisant les interdépendances entre les canaux.

📖

المصطلحات

Transformer Convolutif pour Audio (CTT)

Une architecture qui intègre des convolutions dans le bloc Transformer pour capturer efficacement les motifs locaux dans les spectrogrammes avant d'appliquer l'auto-attention pour les dépendances globales.

📖

المصطلحات

Entraînement Contrastif Audio (CLAP)

Une méthode d'apprentissage multimodal qui utilise une perte contrastive pour aligner les représentations audio et textuelles dans un espace partagé, permettant le zero-shot classification audio.

📖

المصطلحات

Délai Causal dans les Transformers Audio

Une contrainte d'architecture où l'attention pour un pas de temps donné ne peut se faire que sur les pas de temps présents et passés, essentielle pour les modèles de streaming et de génération audio en temps réel.

📖

المصطلحات

Positional Encoding 2D pour Spectrogrammes

Une technique de codage de position qui encode les informations spatiales (temps et fréquence) pour les tokens extraits de spectrogrammes, permettant au Transformer de comprendre la structure 2D du signal audio.

📖

المصطلحات

Fine-tuning sur Tâches Audio Spécifiques

Le processus d'adaptation d'un Transformer audio pré-entraîné sur une large base de données à une tâche ciblée comme la détection d'événements sonores ou l'identification du locuteur, en gelant ou en ré-entraînant sélectivement les couches.

📖

المصطلحات

Modèle de Langage Audio (AudioLM)

Une approche qui traite la génération audio comme une tâche de modélisation de langage, en prédisant des tokens acoustiques discrets avec un Transformer, similaire à la manière dont les modèles de langage génèrent du texte.

قاموس الذكاء الاصطناعي

محول مخطط الصوت (AST)

Conformer

Wav2Vec 2.0

HuBERT

Jukebox

Music Transformer

SpecAugment

الانتباه الذاتي على تسلسلات الصوت

Tokenisation Audio

Cross-Attention Audio-Texte

Perceiver IO Audio

Squeeze-and-Excitation Audio

Transformer Convolutif pour Audio (CTT)

Entraînement Contrastif Audio (CLAP)

Délai Causal dans les Transformers Audio

Positional Encoding 2D pour Spectrogrammes

Fine-tuning sur Tâches Audio Spécifiques

Modèle de Langage Audio (AudioLM)

لم يتم العثور على نتائج