المحولات متعددة الوسائط - مسرد الذكاء الاصطناعي

📖

المصطلحات

محول متعدد الوسائط

بنية محول موسعة قادرة على معالجة عدة وسائط بيانات بشكل متزامن (نص، صورة، صوت) باستخدام آليات الانتباه المتقاطع لدمج المعلومات بين الوسائط المختلفة.

📖

المصطلحات

محول الرؤية-اللغة

بنية محول مصممة خصيصاً لفهم وإنشاء المحتوى المرئي والنصي بشكل مشترك، باستخدام مشفرات مشتركة أو منفصلة لكل وسيلة.

📖

المصطلحات

آلية الدمج

استراتيجية خوارزمية تسمح بدمج تمثيلات وسائط مختلفة بشكل فعال في مستوى واحد أو أكثر من الشبكة، بما في ذلك الدمج المبكر، المتأخر أو الهرمي.

📖

المصطلحات

تضمين الوسائط

متجهات تشفير محددة تضاف إلى تضمينات الرموز للإشارة إلى وسيلة الأصل (نص، صورة، صوت) مما يسمح للمحول بالتمييز ومعالجة كل نوع بيانات بشكل مختلف.

📖

المصطلحات

CLIP

نموذج التدريب المسبق المقابل للغة والصورة المدرب على 400 مليون زوج صورة-نص باستخدام هدف مقابل لتعلم التمثيلات المشتركة بين الرؤية واللغة.

📖

المصطلحات

VLP

عائلة نماذج التدريب المسبق للرؤية-اللغة تستخدم محول محول مشترك للوسيلتين مع مهام التدريب المسبق مثل النمذجة المقنعة والتنبؤ بصورة-نص.

📖

المصطلحات

المشفر-المفكك الموحد

بنية محول حيث يعالج نفس المشفر جميع وسائط الإدخال، وينشئ المفكك المخرجات، مما يسمح بمهام مثل VQA، التسمية والاسترجاع بنموذج واحد.

📖

المصطلحات

فجوة الوسائط

الفرق الهيكلي والدلالي الجوهري بين مساحات التمثيل لوسائط مختلفة، مما يتطلب آليات محاذاة محددة في النماذج متعددة الوسائط.

📖

المصطلحات

الدمج متعدد الوسائط

عملية دمج ميزات من وسائط مختلفة في تمثيل موحد، مع استغلال التكميلات بين الوسائط المختلفة لتحسين الأداء في المهام المعقدة.

📖

المصطلحات

المحاذاة عبر الوسائط

هدف تدريب يهدف إلى محاذاة التمثيلات المختلفة للوسائط بشكل دلالي في مساحة مشتركة، مما يتيح التوافق بين المفاهيم المرئية واللغوية.

📖

المصطلحات

Perceiver IO

بنية Transformer عامة قادرة على معالجة أي مزيج من الوسائط باستخدام شبكة انتباه متقاطعة بين بيانات الإدخال ومجموعة من الكامنات المتعلمة.

📖

المصطلحات

نموذج Flamingo

نموذج رؤية-لغة يضم 80 مليار معلمة يستخدم محولات مدربة مسبقًا وبوابات انتباه لدمج Vision Transformers ونماذج اللغة بفعالية دون إعادة تدريب كاملة.

📖

المصطلحات

BLIP

إطار عمل Bootstrapping Language-Image Pre-training الذي يقوم بتوليد تسميات زائدة لفلترة الضوضاء وتحسين جودة البيانات، باستخدام مشفر متعدد الوسائط وفك تشفير الصورة-النص.

📖

المصطلحات

CoCa

نموذج Contrastive Captioners الذي يجمع بين هدف تبايني لتعلم التمثيلات وهدف توليدي للتعليق في بنية Transformer موحدة واحدة.

📖

المصطلحات

BEiT-3

نموذج Bidirectional Encoder representation from Image Transformer v3 يستخدم متعدد المسارات Transformer مع تضمينات خاصة بالوسائط لمعالجة الصورة والنص والصورة-النص بطريقة موحدة.

📖

المصطلحات

LayoutLM

عائلة من النماذج المدربة مسبقًا على المستندات التي تجمع بين التخطيط المكاني ثنائي الأبعاد والنص والمعلومات المرئية لفهم المستندات المنظمة مثل النماذج والفواتير.

📖

المصطلحات

UniPerceiver

إطار تصور عالمي يعالج مهام متعددة الوسائط متنوعة كمسألة موحدة لتوليد الرموز، باستخدام نموذج Transformer واحد للتصنيف والكشف والتوليد.

📖

المصطلحات

GIT

نموذز Generative Image-to-text Transformer يعالج الصور كلغة أجنبية ويستخدم بنية بسيطة من المشفر-المفكك لوصف الصور والأسئلة المرئية مع أداء متقدم.

قاموس الذكاء الاصطناعي

محول متعدد الوسائط

محول الرؤية-اللغة

آلية الدمج

تضمين الوسائط

CLIP

VLP

المشفر-المفكك الموحد

فجوة الوسائط

الدمج متعدد الوسائط

المحاذاة عبر الوسائط

Perceiver IO

نموذج Flamingo

BLIP

CoCa

BEiT-3

LayoutLM

UniPerceiver

GIT

لم يتم العثور على نتائج