قاموس الذكاء الاصطناعي
القاموس الكامل للذكاء الاصطناعي
محول الرؤية (ViT)
معمارية عصبية تطبق آليات الترانسفورمر على معالجة الصور بتقسيم الصور إلى تسلسلات من الباتشات للمعالجة المتسلسلة.
تضمين الباتش
عملية تحويل باتشات الصور إلى متجهات تضمين ذات أبعاد ثابتة عبر الإسقاط الخطي لتغذية الترانسفورمر.
توكين التصنيف
توكين خاص مضاف إلى تسلسل التضمينات الذي تمثيله النهائي بعد المرور في الترانسفورمر يستخدم لتصنيف الصورة.
الانتباه الذاتي متعدد الرؤوس
آلية تسمح للنموذج بحساب تمثيلات انتباه متعددة في نفس الوقت لالتقاط علاقات مختلفة بين باتشات الصورة.
مشفر الترانسفورمر
بلوك أساسي مكون من طبقات الانتباه الذاتي والشبكات التغذية الأمامية بالتناوب مع التطبيع والوصلات المتبقية.
ترميز باتشات الصورة
عملية تقسيم الصورة إلى باتشات غير متداخلة بحجم ثابت عادة 16×16 بكسل تُحوّل بعد ذلك إلى توكينات متسلسلة.
تصور خرائط الانتباه
تقنية تفسيرية تقوم بتصور أوزان الانتباه بين الباتشات لفهم مناطق الصورة التي يركز عليها النموذج.
التدريب المسبق على مجموعات البيانات الكبيرة
مرحلة تدريب أولية على ملايين الصور مثل ImageNet-21k لتعلم تمثيلات بصرية عامة قبل الضبط الدقيق.
Patch Size Hyperparameter
Paramètre crucial définissant la dimension des patches d'images influençant directement la complexité computationnelle et les performances du modèle.
Token-to-Patch Reconstruction
Processus inverse dans les tâches génératives où les tokens sont reconvertis en patches image pour reconstruire l'image originale.
Hierarchical Vision Transformer
Variante de ViT utilisant une structure pyramidale avec des tailles de patches variables pour capturer des caractéristiques multi-échelles.
Self-Supervised ViT Pre-training
Méthodes d'entraînement non supervisé comme DINO ou MAE exploitant la structure Transformer pour apprendre sans annotations.
Cross-Attention in Multi-Modal ViT
Mécanisme étendant ViT pour traiter conjointement images et texte en utilisant l'attention entre modalités différentes.
Computational Complexity O(n²)
Complexité quadratique du self-attention par rapport au nombre de patches constituant la limitation principale des Vision Transformers.