قاموس الذكاء الاصطناعي
القاموس الكامل للذكاء الاصطناعي
محول الصوت (Audio Transformer)
هندسة محول (ترانسفورمر) مكيفة لمعالجة الإشارات الصوتية باستخدام آليات الانتباه على تمثيلات زمنية أو ترددية للبيانات الصوتية.
محول الطيف الترددي (Spectrogram Transformer)
نسخة من محول (ترانسفورمر) تعمل مباشرة على المخططات الطيفية (spectrograms) بتقطيعها إلى رقع (patches) تُعالج كسلاسل من التضمينات (embeddings) لتصنيف الصوت.
Wav2Vec 2.0
نموذج تعلم ذاتي الإشراف لتمثيل الكلام باستخدام هندسة محول (ترانسفورمر) مع إخفاء كمي (quantified masking) على الأشكال الموجية الخام.
ويسبير (Whisper)
نموذج محول (ترانسفورمر) قوي للتعرف على الكلام وترجمة الكلام إلى نص، مدرب على 680 ألف ساعة من البيانات الصوتية المنسوخة بإشراف ضعيف.
AudioLM
نموذج شبيه باللغة لتوليد الصوت باستخدام محولات (ترانسفورمرز) هرمية على تمثيلات صوتية ودلالية منفصلة.
Encodec
ترميز عصبي (codec) يعتمد على محول (ترانسفورمر) مع تكميم متبقي (residual quantization) لضغط الصوت وإعادة بنائه بجودة عالية.
VALL-E
نموذج لغة ترميز عصبي (neural codec language) لتوليف الكلام باستخدام محولات (ترانسفورمرز) لتوليد كلام عالي الجودة من موجهات صوتية مدتها 3 ثوانٍ.
Wav2Vec-U
نهج غير خاضع للإشراف (unsupervised) للتعرف التلقائي على الكلام (ASR) باستخدام نماذج wav2vec 2.0 المدربة مسبقًا بدون نسخ، مستغلًا المحاذاة الصوتية الضمنية.
ميوزيك جين
نموذج ترانسفورمر شرطي لتوليد الموسيقى باستخدام مُرمّزات صوتية ويمكن التحكم فيه بواسطة أوصاف نصية أو ألحان.
ميرت
محول تمثيل غلاف الموسيقى، نموذج مُدرب مسبقًا ذاتي الإشراف لفهم الموسيقى باستخدام تمثيلات متعددة المقاييس.
سبيك تو فيك
هندسة ترانسفورمر تحول الأطياف الصوتية إلى تضمينات متجهة لمهام التصنيف والاسترجاع الصوتي.