محولات الرؤية (ViT) - مسرد الذكاء الاصطناعي

📖

المصطلحات

محول الرؤية (ViT)

معمارية عصبية تطبق آليات الترانسفورمر على معالجة الصور بتقسيم الصور إلى تسلسلات من الباتشات للمعالجة المتسلسلة.

📖

المصطلحات

تضمين الباتش

عملية تحويل باتشات الصور إلى متجهات تضمين ذات أبعاد ثابتة عبر الإسقاط الخطي لتغذية الترانسفورمر.

📖

المصطلحات

توكين التصنيف

توكين خاص مضاف إلى تسلسل التضمينات الذي تمثيله النهائي بعد المرور في الترانسفورمر يستخدم لتصنيف الصورة.

📖

المصطلحات

الانتباه الذاتي متعدد الرؤوس

آلية تسمح للنموذج بحساب تمثيلات انتباه متعددة في نفس الوقت لالتقاط علاقات مختلفة بين باتشات الصورة.

📖

المصطلحات

مشفر الترانسفورمر

بلوك أساسي مكون من طبقات الانتباه الذاتي والشبكات التغذية الأمامية بالتناوب مع التطبيع والوصلات المتبقية.

📖

المصطلحات

ترميز باتشات الصورة

عملية تقسيم الصورة إلى باتشات غير متداخلة بحجم ثابت عادة 16×16 بكسل تُحوّل بعد ذلك إلى توكينات متسلسلة.

📖

المصطلحات

تصور خرائط الانتباه

تقنية تفسيرية تقوم بتصور أوزان الانتباه بين الباتشات لفهم مناطق الصورة التي يركز عليها النموذج.

📖

المصطلحات

التدريب المسبق على مجموعات البيانات الكبيرة

مرحلة تدريب أولية على ملايين الصور مثل ImageNet-21k لتعلم تمثيلات بصرية عامة قبل الضبط الدقيق.

📖

المصطلحات

Patch Size Hyperparameter

Paramètre crucial définissant la dimension des patches d'images influençant directement la complexité computationnelle et les performances du modèle.

📖

المصطلحات

Token-to-Patch Reconstruction

Processus inverse dans les tâches génératives où les tokens sont reconvertis en patches image pour reconstruire l'image originale.

📖

المصطلحات

Hierarchical Vision Transformer

Variante de ViT utilisant une structure pyramidale avec des tailles de patches variables pour capturer des caractéristiques multi-échelles.

📖

المصطلحات

Self-Supervised ViT Pre-training

Méthodes d'entraînement non supervisé comme DINO ou MAE exploitant la structure Transformer pour apprendre sans annotations.

📖

المصطلحات

Cross-Attention in Multi-Modal ViT

Mécanisme étendant ViT pour traiter conjointement images et texte en utilisant l'attention entre modalités différentes.

📖

المصطلحات

Computational Complexity O(n²)

Complexité quadratique du self-attention par rapport au nombre de patches constituant la limitation principale des Vision Transformers.

قاموس الذكاء الاصطناعي

محول الرؤية (ViT)

تضمين الباتش

توكين التصنيف

الانتباه الذاتي متعدد الرؤوس

مشفر الترانسفورمر

ترميز باتشات الصورة

تصور خرائط الانتباه

التدريب المسبق على مجموعات البيانات الكبيرة

Patch Size Hyperparameter

Token-to-Patch Reconstruction

Hierarchical Vision Transformer

Self-Supervised ViT Pre-training

Cross-Attention in Multi-Modal ViT

Computational Complexity O(n²)

لم يتم العثور على نتائج