قاموس الذكاء الاصطناعي
القاموس الكامل للذكاء الاصطناعي
محول متعدد الوسائط
بنية محول موسعة قادرة على معالجة عدة وسائط بيانات بشكل متزامن (نص، صورة، صوت) باستخدام آليات الانتباه المتقاطع لدمج المعلومات بين الوسائط المختلفة.
محول الرؤية-اللغة
بنية محول مصممة خصيصاً لفهم وإنشاء المحتوى المرئي والنصي بشكل مشترك، باستخدام مشفرات مشتركة أو منفصلة لكل وسيلة.
آلية الدمج
استراتيجية خوارزمية تسمح بدمج تمثيلات وسائط مختلفة بشكل فعال في مستوى واحد أو أكثر من الشبكة، بما في ذلك الدمج المبكر، المتأخر أو الهرمي.
تضمين الوسائط
متجهات تشفير محددة تضاف إلى تضمينات الرموز للإشارة إلى وسيلة الأصل (نص، صورة، صوت) مما يسمح للمحول بالتمييز ومعالجة كل نوع بيانات بشكل مختلف.
CLIP
نموذج التدريب المسبق المقابل للغة والصورة المدرب على 400 مليون زوج صورة-نص باستخدام هدف مقابل لتعلم التمثيلات المشتركة بين الرؤية واللغة.
VLP
عائلة نماذج التدريب المسبق للرؤية-اللغة تستخدم محول محول مشترك للوسيلتين مع مهام التدريب المسبق مثل النمذجة المقنعة والتنبؤ بصورة-نص.
المشفر-المفكك الموحد
بنية محول حيث يعالج نفس المشفر جميع وسائط الإدخال، وينشئ المفكك المخرجات، مما يسمح بمهام مثل VQA، التسمية والاسترجاع بنموذج واحد.
فجوة الوسائط
الفرق الهيكلي والدلالي الجوهري بين مساحات التمثيل لوسائط مختلفة، مما يتطلب آليات محاذاة محددة في النماذج متعددة الوسائط.
الدمج متعدد الوسائط
عملية دمج ميزات من وسائط مختلفة في تمثيل موحد، مع استغلال التكميلات بين الوسائط المختلفة لتحسين الأداء في المهام المعقدة.
المحاذاة عبر الوسائط
هدف تدريب يهدف إلى محاذاة التمثيلات المختلفة للوسائط بشكل دلالي في مساحة مشتركة، مما يتيح التوافق بين المفاهيم المرئية واللغوية.
Perceiver IO
بنية Transformer عامة قادرة على معالجة أي مزيج من الوسائط باستخدام شبكة انتباه متقاطعة بين بيانات الإدخال ومجموعة من الكامنات المتعلمة.
نموذج Flamingo
نموذج رؤية-لغة يضم 80 مليار معلمة يستخدم محولات مدربة مسبقًا وبوابات انتباه لدمج Vision Transformers ونماذج اللغة بفعالية دون إعادة تدريب كاملة.
BLIP
إطار عمل Bootstrapping Language-Image Pre-training الذي يقوم بتوليد تسميات زائدة لفلترة الضوضاء وتحسين جودة البيانات، باستخدام مشفر متعدد الوسائط وفك تشفير الصورة-النص.
CoCa
نموذج Contrastive Captioners الذي يجمع بين هدف تبايني لتعلم التمثيلات وهدف توليدي للتعليق في بنية Transformer موحدة واحدة.
BEiT-3
نموذج Bidirectional Encoder representation from Image Transformer v3 يستخدم متعدد المسارات Transformer مع تضمينات خاصة بالوسائط لمعالجة الصورة والنص والصورة-النص بطريقة موحدة.
LayoutLM
عائلة من النماذج المدربة مسبقًا على المستندات التي تجمع بين التخطيط المكاني ثنائي الأبعاد والنص والمعلومات المرئية لفهم المستندات المنظمة مثل النماذج والفواتير.
UniPerceiver
إطار تصور عالمي يعالج مهام متعددة الوسائط متنوعة كمسألة موحدة لتوليد الرموز، باستخدام نموذج Transformer واحد للتصنيف والكشف والتوليد.
GIT
نموذز Generative Image-to-text Transformer يعالج الصور كلغة أجنبية ويستخدم بنية بسيطة من المشفر-المفكك لوصف الصور والأسئلة المرئية مع أداء متقدم.