قاموس الذكاء الاصطناعي
القاموس الكامل للذكاء الاصطناعي
النمطية المتقاطعة
قدرة النظام على فهم وربط المعلومات من أنماط مختلفة، مثل النص والصور، لإثراء الفهم السياقي.
محول الرؤية واللغة (VLT)
بنية محول مدربة مسبقًا على مجموعات كبيرة من الصور والنصوص المقترنة، مصممة لمهام الفهم والتوليد متعددة الأنماط.
الاستدلال البصري
قدرة نظام الإجابة على الأسئلة على استنتاج معلومات غير صريحة من خلال تحليل العلاقات المكانية أو سمات الكائنات أو المشاهد المعقدة في الصورة.
التأريض البصري
عملية ربط المفاهيم اللغوية (الكلمات، الجمل) بكيانات أو مناطق محددة في صورة أو فيديو، مما يخلق رابطًا دلاليًا ملموسًا.
محاذاة النمط-إلى-النمط
عملية تعلم تطابق أجزاء من نمط (مثل جملة) مع الأجزاء ذات الصلة من نمط آخر (مثل منطقة صورة).
كتاب الرموز المتجهي الكمي (VQ)
تقنية تستخدم في النماذج متعددة الأنماط لتقسيم التمثيلات المستمرة (مثل الصور) إلى مجموعة محدودة من الرموز المنفصلة، مما يسهل معالجتها بواسطة نماذج اللغة.
بيرسيبترون متعدد الأنماط (MLP)
شبكة عصبية، غالبًا ما تكون MLP، تأخذ الميزات المدمجة من أنماط متعددة كمدخلات لأداء مهمة تصنيف أو انحدار نهائية.
نموذج الدمج ثنائي التدفق
بنية يتم فيها معالجة كل نمط بواسطة شبكة عصبية منفصلة (تدفق) قبل دمج تمثيلاتها لاتخاذ قرار مشترك.
استرجاع المعلومات متعدد الوسائط
مهمة تتضمن العثور على مستندات (مثل: صور) ذات صلة بناءً على استعلام في وسائط أخرى (مثل: نص)، بالاعتماد على تشابهها في مساحة تضمين مشتركة.
توليد استجابة شرطية
عملية يقوم فيها نموذج لغوي بتوليد استجابة نصية يكون محتواها مشروطًا وموجهًا بالمعلومات المستخرجة من وسائط غير نصية مثل الصورة.
ترميز الصورة
عملية تحويل الصورة إلى تسلسل من الرموز المميزة المنفصلة، غالبًا عبر VAE أو VQ-VAE، لجعلها متوافقة مع بنيات من نوع Transformer.