قاموس الذكاء الاصطناعي
القاموس الكامل للذكاء الاصطناعي
نموذج الانتشار الصوتي
هندسة شبكة عصبية توليدية تطبق عملية انتشار وتنقية تدريجية لتوليد أشكال موجات صوتية عالية الدقة من ضوضاء عشوائية أولية.
الطيف الشرطي
تمثيل زمني-ترددي للإشارة الصوتية يستخدم كمدخل أو شرط في نماذج الانتشار، حيث يتم توجيه العملية التكرارية للتنقية لإعادة بناء بنية طيفية متماسكة.
المُرمِّز الصوتي العصبي
شبكة عصبية تحول التمثيل الصوتي الوسيط، مثل الطيف أو الخصائص اللحنية، إلى شكل موجة صوتية مستمرة، غالباً ما يتم دمجه في نهاية خط أنابيب الانتشار الصوتي.
انتشار الكلام
تطبيق متخصص لنماذج الانتشار لتوليد إشارات الكلام، يهدف إلى التقاط الفروق الصوتية والإيقاعية والنغمية من أجل تركيب صوتي طبيعي.
انتشار الموسيقى
مجال فرعي من الانتشار الصوتي يركز على توليد المحتوى الموسيقي، بما في ذلك التناغم والإيقاع واللحن والنغمة، غالباً ما يكون مقيداً بمعلومات هيكلية مثل النوتات الموسيقية أو الأوتار.
التوجيه الخالي من المصنِّف
تقنية استدلال تعزز التزام نموذج الانتشار بشرط (نص، لحن، إلخ) من خلال الاستيفاء بين التنبؤ الشرطي والتنبؤ غير الشرطي، مما يحسن دقة وتحكم التوليد.
خطوة زمن الانتشار
متغير منفصل يمثل مرحلة عملية الضوضاء أو التنقية، يتراوح من 0 (إشارة نقية) إلى T (ضوضاء نقية)، والذي يشرط الشبكة العصبية للتنبؤ بالضوضاء المراد إزالتها في كل تكرار.
الفضاء الكامن الصوتي
تمثيل مضغوط ومجرد للبيانات الصوتية، يتم الحصول عليه عبر مشفر، حيث يتم تطبيق عملية الانتشار لتقليل التعقيد الحسابي مع الحفاظ على المعلومات الدلالية.
إصلاح الصوت
مهمة معالجة تتضمن إعادة توليد أو إكمال جزء مفقود أو تالف من إشارة صوتية باستخدام نموذج الانتشار، بالاعتماد على السياق الصوتي المحيط.
التحسين الفائق للصوت
عملية يقوم فيها نموذج الانتشار بتحسين جودة أو تردد أخذ العينات لإشارة صوتية منخفضة الدقة، بإضافة تفاصيل عالية التردد معقولة ومتسقة.
التشفير الصوتي المستمر
طريقة تمثيل تحول شكل موجة منفصل إلى مجموعة من المتجهات المستمرة في فضاء كامن، لتكون أساساً لعملية الانتشار في النماذج الصوتية التوليدية.
التكييف النصي الصوتي
تقنية يتم فيها توجيه نموذج الانتشار الصوتي بواسطة وصف نصي لتوليد صوت مطابق، مما يتطلب بنية متعددة الوسائط قادرة على محاذاة الوسائط النصية والسمعية.
مطابقة النقاط بإزالة الضوضاء
هدف تدريبي أساسي لنماذج الانتشار، حيث يتعلم الشبكة العصبية التنبؤ بالتدرج (النقاط) لتوزيع البيانات بالنسبة للمدخلات المليئة بالضوضاء، مما يتيح إزالة الضوضاء التكرارية.
أخذ العينات العشوائي
طريقة استدلال لنماذج الانتشار حيث تتضمن إزالة الضوضاء في كل خطوة عنصراً عشوائياً، مما يعزز تنوع المخرجات ولكن قد يؤدي إلى ظهور تشوهات.
أخذ العينات الحتمي
استراتيجية استدلال تسمح بتسريع عملية التوليد بإجراء خطوات أقل لإزالة الضوضاء بطريقة حتمية، مما يقلل العشوائية للحصول على نتائج أكثر قابلية للتكرار.
نموذج الانتشار الكامن
نوع مختلف من نماذج الانتشار يعمل في فضاء كامن ذي أبعاد أقل، يتم تعلمه بواسطة مشفر تلقائي، لجعل التدريب والاستدلال أكثر كفاءة للبيانات عالية الدقة مثل الصوت.
المحوّلات التلافيفية للصوت
هندسة هجينة تجمع بين طبقات الالتفاف لالتقاط الأنماط المحلية وآليات الانتباه للتبعيات طويلة المدى، تُستخدم غالبًا كعمود فقري في شبكات U-Net لنشر الصوت.
خط أنابيب توليد الصوت
سلسلة كاملة من العمليات، من ترميز شرط (نص، لحن) إلى النشر في الفضاء الكامن وأخيرًا فك الترميز بواسطة مولد الصوت، لإنتاج إشارة صوتية نهائية.
إعادة تحجيم الضوضاء
تقنية ضبط تباين الضوضاء المضافة في كل مرحلة من عملية النشر، تُستخدم لتحقيق استقرار التدريب وتحسين جودة العينات المُنتجة في النماذج الصوتية.