قاموس الذكاء الاصطناعي
القاموس الكامل للذكاء الاصطناعي
نموذج اللغة البصرية (VLM)
فئة فرعية من النماذج متعددة الوسائط المتخصصة في الفهم المشترك للنص والصور، القادرة على مهام مثل تسمية الصور، الاستدلال البصري، أو توليد الصور من النص.
الترميز البصري
تقنية تقسم الصورة إلى سلسلة من الرقع أو الرموز المنفصلة، غالبًا عبر شبكة عصبية مثل محول الرؤية (ViT)، لجعلها متوافقة مع بنية المحولات النصية.
نموذج المحاذاة
نموذج، غالبًا ما يعتمد على مقارن مثل CLIP، يتم تدريبه على مجموعات ضخمة من أزواج (صورة، نص) لتعلم كيفية إسقاط الوسيطتين في فضاء متجه مشترك حيث تعكس تشابه جيب التمام (cosine similarity) مدى ارتباطهما المتبادل.
التوليد الشرطي متعدد الوسائط
مهمة توليد حيث يتم إنتاج المخرجات (مثل: نص، صورة) بناءً على مدخل واحد أو أكثر من وسائط مختلفة، مثل وصف صورة أو إنشاء صورة من نص.
الاستدلال المتسلسل متعدد الوسائط
قدرة النموذج على استخدام معلومات من وسائط متعددة لبناء تسلسل منطقي للتفكير والوصول إلى استنتاج، على سبيل المثال بتحليل رسم بياني ونص للإجابة على سؤال.
البرسيبترون متعدد الوسائط
مفهوم نظري أو بنية بدائية حيث يتم دمج المدخلات من طبيعات مختلفة، غالبًا عن طريق الربط (concatenation) أو عملية دمج، قبل معالجتها بواسطة طبقات من الخلايا العصبية المتصلة بالكامل.
نموذج الانتشار متعدد الوسائط
بنية توليد تستخدم عملية تكرارية لإضافة الضوضاء وإزالتها لإنشاء بيانات (مثل: صور) مشروطة بوسيطة أخرى (مثل: وصف نصي)، عن طريق توجيه إزالة الضوضاء بمعلومات الشرط.
الترميز المنفصل مقابل الترميز الموحد
استراتيجيتان معماريتان للنماذج متعددة الوسائط: الترميز المنفصل يعالج كل وسيطة بمشفر مخصص قبل الدمج، بينما يستخدم الترميز الموحد محولًا واحدًا لمعالجة تسلسل من الرموز المختلطة.
التعلم الصفري متعدد الوسائط
قدرة النموذج على أداء مهمة على نمط معين (مثل: تصنيف صورة) دون أن يكون قد تم تدريبه صراحةً عليها، وذلك من خلال استغلال المعرفة المنقولة من نمط آخر (مثل: نص تسميات الفئات).
نموذج الصوت-الصورة-النص
شكل متقدم من النماذج متعددة الوسائط يدمج ثلاثة تدفقات بيانات (الصوت، الصورة، النص) للمهام المعقدة مثل وصف مقاطع الفيديو، حيث يجب على النموذج مزامنة وتفسير المعلومات المرئية والصوتية لإنتاج سرد نصي.
الإسقاط الكامن
طبقة شبكة عصبية، غالبًا ما تكون تحويلاً خطيًا بسيطًا، تُستخدم لربط متجهات التضمين لكل نمط في فضاء كامن مشترك قبل دمجها أو مقارنتها.
النموذج الأساسي متعدد الوسائط
نموذج واسع النطاق للغاية، تم تدريبه مسبقًا على كميات هائلة من البيانات غير المتجانسة، ويعمل كأساس للتكيف (الضبط الدقيق) مع مجموعة كبيرة من المهام متعددة الوسائط المحددة.
النمطية في النماذج متعددة الوسائط
مبدأ تصميم حيث تكون المشفرات لكل نمط وحدات مميزة وقابلة للتبديل، مما يسمح بتحديث أو استبدال مكون (مثل: مشفر الرؤية) دون إعادة تدريب النموذج بأكمله.
التوجيه متعدد الوسائط
تقنية التفاعل مع نموذج حيث يتكون الإدخال ('الموجه') من أنماط متعددة، على سبيل المثال صورة مصحوبة بسؤال نصي، لتوجيه النموذج نحو إجابة محددة.