قاموس الذكاء الاصطناعي
القاموس الكامل للذكاء الاصطناعي
أجزاء الصورة (Image Patches)
تقسيم الصورة إلى شبكات منتظمة من أقسام مربعة صغيرة (عادةً 16x16 بكسل) يتم التعامل معها كرموز متسلسلة بواسطة محول الرؤية (ViT).
ترميز الصورة (Visual Tokenization)
عملية تقسيم الصورة إلى تسلسل من الرموز المنفصلة، وهي أساسية لتكييف بنية المحول (Transformer) المصممة في الأصل للنصوص مع البيانات المرئية.
محول الصورة الفعال بالبيانات (DeiT - Data-efficient Image Transformer)
نسخة من محول الرؤية (Vision Transformer) تم تدريبها باستخدام استراتيجيات التقطير (distillation) لتحقيق أداء تنافسي بكمية أقل من بيانات التدريب.
محولات الرؤية الهرمية (Hierarchical Vision Transformers)
بنى المحولات التي تحافظ على تمثيلات متعددة المقاييس للصورة، وتجمع بين مزايا الشبكات العصبية التلافيفية التقليدية (CNNs) ومرونة المحولات.
تحجيم الطبقات (Layer Scaling)
تقنية تطبيع تُطبق على البقايا (residuals) في طبقات المحول لتثبيت التدريب وتحسين تقارب النماذج العميقة.
محول الرؤية بالانتباه المتقاطع (Cross-Attention Vision Transformer)
بنية تستخدم آليات الانتباه المتقاطع بين أنماط أو تمثيلات مختلفة، مما يسمح بتفاعلات أغنى بين الميزات.
الانتباه الذاتي المستند إلى النوافذ (Window-based Self-Attention)
نسخة من الانتباه تقتصر على النوافذ المحلية بدلاً من الصورة الكاملة، مما يقلل من التعقيد الحسابي مع التقاط العلاقات المحلية المهمة.