قاموس الذكاء الاصطناعي
القاموس الكامل للذكاء الاصطناعي
الانتباه متعدد الوسائط
آلية انتباه تسمح لنموذج بربط عناصر من وسائط مختلفة (نص-صورة، صوت-نص) لإثراء الفهم السياقي. يحسب هذا النهج أوزان الانتباه بين خصائص كل وسيط لتحديد الارتباطات الدلالية ذات الصلة.
التوليد عبر النطاقات
قدرة نموذج الذكاء الاصطناعي على إنشاء محتوى في وسيط مستهدف من مدخلات في وسيط أو عدة وسائط مصدر مختلفة. يسمح هذا التحويل، على سبيل المثال، بتوليد صور من أوصاف نصية، أو إنشاء صوت من فيديو، أو توليف نص من صور.
نماذج الانتشار متعددة الوسائط
نهج توليدي يجمع بين عمليات الانتشار لإنشاء محتوى متسق عبر وسائط متعددة في وقت واحد. تستخدم هذه النماذج ضوضاء تدريجية وشروطًا عبر الوسائط لتوليد مخرجات معقدة مثل مقاطع الفيديو المتزامنة مع الصوت أو الصور ذات الأوصاف التفصيلية.
الإسقاط المشترك
تقنية تتضمن تعيين تمثيلات الوسائط المختلفة في فضاء متجه مشترك عبر شبكات إسقاط يتم تعلمها بشكل مشترك. يسهل هذا النهج المقارنات المباشرة بين الوسائط ويسمح بعمليات مثل الاسترجاع عبر الوسائط والتوليد الشرطي.
النماذج التباينية متعددة الوسائط
فئة من النماذج تستخدم أهداف التعلم التبايني لزيادة التشابه بين الأزواج الإيجابية من الوسائط مع تقليل التشابه بين الأزواج السلبية. تتفوق هذه النماذج في مهام المحاذاة والاسترجاع بفضل قدرتها على تعلم تمثيلات غنية دلاليًا.
التمثيلات الكامنة متعددة الوسائط
فضاءات ذات أبعاد مخفضة تقوم بترميز المعلومات الأساسية لعدة وسائط بطريقة مدمجة وقابلة للتفسير. تلتقط هذه التمثيلات الارتباطات عبر الوسائط مع تصفية الضوضاء، مما يسمح بمهام توليد وتصنيف واسترجاع فعالة.
نماذج التشفير-فك التشفير متعددة الوسائط
بنية تتكون من مشفر متعدد الوسائط يعالج المدخلات غير المتجانسة ومفكك تشفير يولد مخرجات في الوسيط المستهدف. هذه النماذج فعالة بشكل خاص لمهام التسلسل إلى تسلسل عبر الوسائط مثل ترجمة الصورة إلى نص أو توليف الصوت والفيديو.
المحول متعدد الوسائط
وحدة عصبية خفيفة الوزن تسمح بتكييف النماذج المدربة مسبقًا على وسيط معين لمعالجة المدخلات متعددة الوسائط بكفاءة دون إعادة تدريب كاملة. تسهل هذه المكونات نقل التعلم مع الحفاظ على قدرات النموذج الأساسي.