المحولات متعددة الوسائط - مسرد الذكاء الاصطناعي

📖

المصطلحات

ALBEF (محاذاة قبل الدمج)

هندسة معمارية مبتكرة تقوم أولاً بمحاذاة تمثيلات النص والصورة في مساحة مشتركة قبل دمجها، باستخدام تقنية تقطير الزخم (momentum distillation) لتحسين الأداء.

📖

المصطلحات

MDETR (الكشف المعدّل للفهم متعدد الوسائط الشامل)

هندسة معمارية للكشف عن الكائنات شاملة (end-to-end) يتم تعديلها بواسطة اللغة الطبيعية، مما يتيح استعلامات نصية معقدة لتحديد موقع الكائنات والتعرف عليها في الصور.

📖

المصطلحات

UNITER (التمثيل العالمي للصورة والنص)

نموذج مُدرب مسبقًا على 4 مهام متعددة الوسائط رئيسية (مطابقة الصورة بالنص، نمذجة اللغة المقنعة، نمذجة المنطقة المقنعة، مطابقة الكلمة بالمنطقة) لتحقيق فهم عالمي للرؤية واللغة.

📖

المصطلحات

VILLA (نموذج الرؤية واللغة واسع النطاق)

نموذج واسع النطاق مُدرب مسبقًا بهندسة Transformer موحدة لمهام فهم الرؤية واللغة، باستخدام تدريبات مسبقة مقنعة متقاطعة.

📖

المصطلحات

FLAVA (محاذاة اللغة والرؤية الأساسية)

نموذج أساسي متعدد الوسائط موحد بهندسة Transformer بسيطة، مُدرب مسبقًا بشكل متزامن على بيانات نصية فقط، وصورية فقط، ومتعددة الوسائط.

📖

المصطلحات

Oscar (التدريب المسبق المحاذي لدلالات الكائنات)

نهج تدريب مسبق يقدم تسميات الكائنات المكتشفة كمراسي دلالية لمواءمة النص والصور، مما يحسن بشكل كبير الفهم متعدد الوسائط.

📖

المصطلحات

VinVL (التدريب المسبق للرؤية واللغة مع ميزات بصرية محسّنة)

إطار عمل يعزز الميزات البصرية باستخدام كاشف كائنات واسع النطاق وسمات، محققًا أداءً رائدًا (state-of-the-art) في معايير V+L.

📖

المصطلحات

BridgeTower

هندسة معمارية تقدم جسورًا بين المشفرات أحادية الوسائط لتسهيل التفاعل العميق بين الوسائط، مما يحسن تبادل المعلومات بين النص والصورة على نطاقات مختلفة.

📖

المصطلحات

Pix2Struct

نموذج محول (Transformer) مُدرب مسبقًا على مهمة تحليل لقطات الشاشة (screenshot parsing)، يتفوق في فهم واجهات المستخدم والرسوم البيانية والمستندات المنظمة بصريًا.

📖

المصطلحات

PaLI (Pathways Language and Image model)

نموذج متعدد الوسائط ضخم يعتمد على Pathways، يجمع بين مُشفّر صور ومُشفّر-مُفكّك نص لمهام الترجمة المرئية والإجابة على الأسئلة المرئية.

قاموس الذكاء الاصطناعي

ALBEF (محاذاة قبل الدمج)

MDETR (الكشف المعدّل للفهم متعدد الوسائط الشامل)

UNITER (التمثيل العالمي للصورة والنص)

VILLA (نموذج الرؤية واللغة واسع النطاق)

FLAVA (محاذاة اللغة والرؤية الأساسية)

Oscar (التدريب المسبق المحاذي لدلالات الكائنات)

VinVL (التدريب المسبق للرؤية واللغة مع ميزات بصرية محسّنة)

BridgeTower

Pix2Struct

PaLI (Pathways Language and Image model)

لم يتم العثور على نتائج