قاموس الذكاء الاصطناعي
القاموس الكامل للذكاء الاصطناعي
ALBEF (محاذاة قبل الدمج)
هندسة معمارية مبتكرة تقوم أولاً بمحاذاة تمثيلات النص والصورة في مساحة مشتركة قبل دمجها، باستخدام تقنية تقطير الزخم (momentum distillation) لتحسين الأداء.
MDETR (الكشف المعدّل للفهم متعدد الوسائط الشامل)
هندسة معمارية للكشف عن الكائنات شاملة (end-to-end) يتم تعديلها بواسطة اللغة الطبيعية، مما يتيح استعلامات نصية معقدة لتحديد موقع الكائنات والتعرف عليها في الصور.
UNITER (التمثيل العالمي للصورة والنص)
نموذج مُدرب مسبقًا على 4 مهام متعددة الوسائط رئيسية (مطابقة الصورة بالنص، نمذجة اللغة المقنعة، نمذجة المنطقة المقنعة، مطابقة الكلمة بالمنطقة) لتحقيق فهم عالمي للرؤية واللغة.
VILLA (نموذج الرؤية واللغة واسع النطاق)
نموذج واسع النطاق مُدرب مسبقًا بهندسة Transformer موحدة لمهام فهم الرؤية واللغة، باستخدام تدريبات مسبقة مقنعة متقاطعة.
FLAVA (محاذاة اللغة والرؤية الأساسية)
نموذج أساسي متعدد الوسائط موحد بهندسة Transformer بسيطة، مُدرب مسبقًا بشكل متزامن على بيانات نصية فقط، وصورية فقط، ومتعددة الوسائط.
Oscar (التدريب المسبق المحاذي لدلالات الكائنات)
نهج تدريب مسبق يقدم تسميات الكائنات المكتشفة كمراسي دلالية لمواءمة النص والصور، مما يحسن بشكل كبير الفهم متعدد الوسائط.
VinVL (التدريب المسبق للرؤية واللغة مع ميزات بصرية محسّنة)
إطار عمل يعزز الميزات البصرية باستخدام كاشف كائنات واسع النطاق وسمات، محققًا أداءً رائدًا (state-of-the-art) في معايير V+L.
BridgeTower
هندسة معمارية تقدم جسورًا بين المشفرات أحادية الوسائط لتسهيل التفاعل العميق بين الوسائط، مما يحسن تبادل المعلومات بين النص والصورة على نطاقات مختلفة.
Pix2Struct
نموذج محول (Transformer) مُدرب مسبقًا على مهمة تحليل لقطات الشاشة (screenshot parsing)، يتفوق في فهم واجهات المستخدم والرسوم البيانية والمستندات المنظمة بصريًا.
PaLI (Pathways Language and Image model)
نموذج متعدد الوسائط ضخم يعتمد على Pathways، يجمع بين مُشفّر صور ومُشفّر-مُفكّك نص لمهام الترجمة المرئية والإجابة على الأسئلة المرئية.