قاموس الذكاء الاصطناعي
القاموس الكامل للذكاء الاصطناعي
رأس MLP
وحدة التصنيف النهائية المكونة عادةً من طبقة متصلة بالكامل مع تفعيل، تليها طبقة إخراج لتنبؤات الفئات. يقوم رأس MLP بمعالجة التمثيل النهائي لرمز الفئة (Class Token) لتوليد درجات التصنيف لكل فئة ممكنة.
حجم الرقعة
البعد المكاني للمربعات التي يتم تقسيم صورة الإدخال إليها، عادةً 16×16 أو 32×32 بكسل لهياكل ViT القياسية. يؤثر حجم الرقع بشكل مباشر على عدد الرموز (tokens) المُنشأة ودقة المعلومات المكانية التي يحتفظ بها النموذج.
ترميز الصور
عملية تحويل صورة ثنائية الأبعاد إلى تسلسل أحادي البعد من الرموز (tokens) يمكن معالجتها بواسطة المحولات (Transformers)، مما يتضمن التقسيم إلى رقع (patches) والإسقاط الخطي. يعد هذا الترميز خطوة حاسمة تتيح تكييف بنية المحول، التي صُممت في الأصل للنصوص، مع مجال الرؤية.
الميزات الثابتة بتغير المقياس
خصائص يستخرجها محولات الرؤية (Vision Transformers) تظل قوية أمام تغيرات مقياس الكائنات في الصور. تنشأ هذه الخصائص بشكل طبيعي من البنية الشاملة للمحولات بفضل قدرتها على نمذجة العلاقات لمسافات طويلة بين الرقع (patches).
محول الرؤية من رمز إلى رمز (T2T-ViT)
متغير من محول الرؤية يستخدم عملية ترميز تكرارية لتحويل الرقع (patches) تدريجيًا إلى رموز أكثر إفادة. تتيح هذه الطريقة نمذجة أفضل للبنية المحلية وتقليلًا تدريجيًا للدقة المكانية، مما يحسن الكفاءة الحسابية.
محول الرؤية الهرمي (PVT)
بنية محول هرمية تولد خرائط ميزات بمقاييس مختلفة، مشابهة لهرميات الميزات في الشبكات العصبية التلافيفية (CNNs). يعد PVT مناسبًا بشكل خاص لمهام الرؤية الكثيفة مثل التجزئة الدلالية واكتشاف الكائنات التي تتطلب تمثيلات متعددة المقاييس.
محول Swin
بنية محول هرمية مع نوافذ انتباه منزاحة تسمح بنمذجة فعالة للعلاقات المحلية والعالمية بتعقيد خطي. يُدخل محول Swin اتصالات متعددة المقاييس وقد أظهر أداءً استثنائيًا على نطاق واسع من مهام الرؤية.
محولات الصور الفعالة بالبيانات (DeiT)
متغير من محول الرؤية يتم تدريبه باستراتيجيات تقطير المعرفة لتحقيق أداء تنافسي مع بيانات تدريب أقل. يُدخل DeiT رمز تقطير إضافي يتعلم من تنبؤات معلم CNN، مما يقلل الفجوة في الأداء مع الأساليب القائمة على البيانات الضخمة.
المشفّرات التلقائية المقنعة (MAE)
نهج للتدريب المسبق ذاتي الإشراف، حيث تتعلم محولات الرؤية عبر إعادة بناء رقع الصور المقنعة من الرقع المرئية المتبقية. تُحقق هذه الطريقة البسيطة والفعالة أداءً رائداً في التدريب المسبق، مع كونها موفرة جداً للموارد الحسابية.