🏠 الرئيسية
المقاييس
📊 جميع المقاييس 🦖 ديناصور v1 🦖 ديناصور v2 ✅ تطبيقات قائمة المهام 🎨 صفحات حرة إبداعية 🎯 FSACB - العرض النهائي 🌍 مقياس الترجمة
النماذج
🏆 أفضل 10 نماذج 🆓 نماذج مجانية 📋 جميع النماذج ⚙️ كيلو كود
الموارد
💬 مكتبة الأوامر 📖 قاموس الذكاء الاصطناعي 🔗 روابط مفيدة

قاموس الذكاء الاصطناعي

القاموس الكامل للذكاء الاصطناعي

227
الفئات
2,955
الفئات الفرعية
34,512
المصطلحات
📖
المصطلحات

محول متعدد الوسائط

بنية محول موسعة قادرة على معالجة عدة وسائط بيانات بشكل متزامن (نص، صورة، صوت) باستخدام آليات الانتباه المتقاطع لدمج المعلومات بين الوسائط المختلفة.

📖
المصطلحات

محول الرؤية-اللغة

بنية محول مصممة خصيصاً لفهم وإنشاء المحتوى المرئي والنصي بشكل مشترك، باستخدام مشفرات مشتركة أو منفصلة لكل وسيلة.

📖
المصطلحات

آلية الدمج

استراتيجية خوارزمية تسمح بدمج تمثيلات وسائط مختلفة بشكل فعال في مستوى واحد أو أكثر من الشبكة، بما في ذلك الدمج المبكر، المتأخر أو الهرمي.

📖
المصطلحات

تضمين الوسائط

متجهات تشفير محددة تضاف إلى تضمينات الرموز للإشارة إلى وسيلة الأصل (نص، صورة، صوت) مما يسمح للمحول بالتمييز ومعالجة كل نوع بيانات بشكل مختلف.

📖
المصطلحات

CLIP

نموذج التدريب المسبق المقابل للغة والصورة المدرب على 400 مليون زوج صورة-نص باستخدام هدف مقابل لتعلم التمثيلات المشتركة بين الرؤية واللغة.

📖
المصطلحات

VLP

عائلة نماذج التدريب المسبق للرؤية-اللغة تستخدم محول محول مشترك للوسيلتين مع مهام التدريب المسبق مثل النمذجة المقنعة والتنبؤ بصورة-نص.

📖
المصطلحات

المشفر-المفكك الموحد

بنية محول حيث يعالج نفس المشفر جميع وسائط الإدخال، وينشئ المفكك المخرجات، مما يسمح بمهام مثل VQA، التسمية والاسترجاع بنموذج واحد.

📖
المصطلحات

فجوة الوسائط

الفرق الهيكلي والدلالي الجوهري بين مساحات التمثيل لوسائط مختلفة، مما يتطلب آليات محاذاة محددة في النماذج متعددة الوسائط.

📖
المصطلحات

الدمج متعدد الوسائط

عملية دمج ميزات من وسائط مختلفة في تمثيل موحد، مع استغلال التكميلات بين الوسائط المختلفة لتحسين الأداء في المهام المعقدة.

📖
المصطلحات

المحاذاة عبر الوسائط

هدف تدريب يهدف إلى محاذاة التمثيلات المختلفة للوسائط بشكل دلالي في مساحة مشتركة، مما يتيح التوافق بين المفاهيم المرئية واللغوية.

📖
المصطلحات

Perceiver IO

بنية Transformer عامة قادرة على معالجة أي مزيج من الوسائط باستخدام شبكة انتباه متقاطعة بين بيانات الإدخال ومجموعة من الكامنات المتعلمة.

📖
المصطلحات

نموذج Flamingo

نموذج رؤية-لغة يضم 80 مليار معلمة يستخدم محولات مدربة مسبقًا وبوابات انتباه لدمج Vision Transformers ونماذج اللغة بفعالية دون إعادة تدريب كاملة.

📖
المصطلحات

BLIP

إطار عمل Bootstrapping Language-Image Pre-training الذي يقوم بتوليد تسميات زائدة لفلترة الضوضاء وتحسين جودة البيانات، باستخدام مشفر متعدد الوسائط وفك تشفير الصورة-النص.

📖
المصطلحات

CoCa

نموذج Contrastive Captioners الذي يجمع بين هدف تبايني لتعلم التمثيلات وهدف توليدي للتعليق في بنية Transformer موحدة واحدة.

📖
المصطلحات

BEiT-3

نموذج Bidirectional Encoder representation from Image Transformer v3 يستخدم متعدد المسارات Transformer مع تضمينات خاصة بالوسائط لمعالجة الصورة والنص والصورة-النص بطريقة موحدة.

📖
المصطلحات

LayoutLM

عائلة من النماذج المدربة مسبقًا على المستندات التي تجمع بين التخطيط المكاني ثنائي الأبعاد والنص والمعلومات المرئية لفهم المستندات المنظمة مثل النماذج والفواتير.

📖
المصطلحات

UniPerceiver

إطار تصور عالمي يعالج مهام متعددة الوسائط متنوعة كمسألة موحدة لتوليد الرموز، باستخدام نموذج Transformer واحد للتصنيف والكشف والتوليد.

📖
المصطلحات

GIT

نموذز Generative Image-to-text Transformer يعالج الصور كلغة أجنبية ويستخدم بنية بسيطة من المشفر-المفكك لوصف الصور والأسئلة المرئية مع أداء متقدم.

🔍

لم يتم العثور على نتائج