النماذج متعددة الوسائط - مسرد الذكاء الاصطناعي

📖

المصطلحات

نموذج اللغة البصرية (VLM)

فئة فرعية من النماذج متعددة الوسائط المتخصصة في الفهم المشترك للنص والصور، القادرة على مهام مثل تسمية الصور، الاستدلال البصري، أو توليد الصور من النص.

📖

المصطلحات

الترميز البصري

تقنية تقسم الصورة إلى سلسلة من الرقع أو الرموز المنفصلة، غالبًا عبر شبكة عصبية مثل محول الرؤية (ViT)، لجعلها متوافقة مع بنية المحولات النصية.

📖

المصطلحات

نموذج، غالبًا ما يعتمد على مقارن مثل CLIP، يتم تدريبه على مجموعات ضخمة من أزواج (صورة، نص) لتعلم كيفية إسقاط الوسيطتين في فضاء متجه مشترك حيث تعكس تشابه جيب التمام (cosine similarity) مدى ارتباطهما المتبادل.

📖

المصطلحات

التوليد الشرطي متعدد الوسائط

مهمة توليد حيث يتم إنتاج المخرجات (مثل: نص، صورة) بناءً على مدخل واحد أو أكثر من وسائط مختلفة، مثل وصف صورة أو إنشاء صورة من نص.

📖

المصطلحات

الاستدلال المتسلسل متعدد الوسائط

قدرة النموذج على استخدام معلومات من وسائط متعددة لبناء تسلسل منطقي للتفكير والوصول إلى استنتاج، على سبيل المثال بتحليل رسم بياني ونص للإجابة على سؤال.

📖

المصطلحات

البرسيبترون متعدد الوسائط

مفهوم نظري أو بنية بدائية حيث يتم دمج المدخلات من طبيعات مختلفة، غالبًا عن طريق الربط (concatenation) أو عملية دمج، قبل معالجتها بواسطة طبقات من الخلايا العصبية المتصلة بالكامل.

📖

المصطلحات

نموذج الانتشار متعدد الوسائط

بنية توليد تستخدم عملية تكرارية لإضافة الضوضاء وإزالتها لإنشاء بيانات (مثل: صور) مشروطة بوسيطة أخرى (مثل: وصف نصي)، عن طريق توجيه إزالة الضوضاء بمعلومات الشرط.

📖

المصطلحات

الترميز المنفصل مقابل الترميز الموحد

استراتيجيتان معماريتان للنماذج متعددة الوسائط: الترميز المنفصل يعالج كل وسيطة بمشفر مخصص قبل الدمج، بينما يستخدم الترميز الموحد محولًا واحدًا لمعالجة تسلسل من الرموز المختلطة.

📖

المصطلحات

التعلم الصفري متعدد الوسائط

قدرة النموذج على أداء مهمة على نمط معين (مثل: تصنيف صورة) دون أن يكون قد تم تدريبه صراحةً عليها، وذلك من خلال استغلال المعرفة المنقولة من نمط آخر (مثل: نص تسميات الفئات).

📖

المصطلحات

نموذج الصوت-الصورة-النص

شكل متقدم من النماذج متعددة الوسائط يدمج ثلاثة تدفقات بيانات (الصوت، الصورة، النص) للمهام المعقدة مثل وصف مقاطع الفيديو، حيث يجب على النموذج مزامنة وتفسير المعلومات المرئية والصوتية لإنتاج سرد نصي.

📖

المصطلحات

الإسقاط الكامن

طبقة شبكة عصبية، غالبًا ما تكون تحويلاً خطيًا بسيطًا، تُستخدم لربط متجهات التضمين لكل نمط في فضاء كامن مشترك قبل دمجها أو مقارنتها.

📖

المصطلحات

النموذج الأساسي متعدد الوسائط

نموذج واسع النطاق للغاية، تم تدريبه مسبقًا على كميات هائلة من البيانات غير المتجانسة، ويعمل كأساس للتكيف (الضبط الدقيق) مع مجموعة كبيرة من المهام متعددة الوسائط المحددة.

📖

المصطلحات

النمطية في النماذج متعددة الوسائط

مبدأ تصميم حيث تكون المشفرات لكل نمط وحدات مميزة وقابلة للتبديل، مما يسمح بتحديث أو استبدال مكون (مثل: مشفر الرؤية) دون إعادة تدريب النموذج بأكمله.

📖

المصطلحات

التوجيه متعدد الوسائط

تقنية التفاعل مع نموذج حيث يتكون الإدخال ('الموجه') من أنماط متعددة، على سبيل المثال صورة مصحوبة بسؤال نصي، لتوجيه النموذج نحو إجابة محددة.

قاموس الذكاء الاصطناعي

نموذج اللغة البصرية (VLM)

الترميز البصري

نموذج المحاذاة

التوليد الشرطي متعدد الوسائط

الاستدلال المتسلسل متعدد الوسائط

البرسيبترون متعدد الوسائط

نموذج الانتشار متعدد الوسائط

الترميز المنفصل مقابل الترميز الموحد

التعلم الصفري متعدد الوسائط

نموذج الصوت-الصورة-النص

الإسقاط الكامن

النموذج الأساسي متعدد الوسائط

النمطية في النماذج متعددة الوسائط

التوجيه متعدد الوسائط

لم يتم العثور على نتائج