محولات الرؤية - مسرد الذكاء الاصطناعي

📖

المصطلحات

رأس MLP

وحدة التصنيف النهائية المكونة عادةً من طبقة متصلة بالكامل مع تفعيل، تليها طبقة إخراج لتنبؤات الفئات. يقوم رأس MLP بمعالجة التمثيل النهائي لرمز الفئة (Class Token) لتوليد درجات التصنيف لكل فئة ممكنة.

📖

المصطلحات

البعد المكاني للمربعات التي يتم تقسيم صورة الإدخال إليها، عادةً 16×16 أو 32×32 بكسل لهياكل ViT القياسية. يؤثر حجم الرقع بشكل مباشر على عدد الرموز (tokens) المُنشأة ودقة المعلومات المكانية التي يحتفظ بها النموذج.

📖

المصطلحات

ترميز الصور

عملية تحويل صورة ثنائية الأبعاد إلى تسلسل أحادي البعد من الرموز (tokens) يمكن معالجتها بواسطة المحولات (Transformers)، مما يتضمن التقسيم إلى رقع (patches) والإسقاط الخطي. يعد هذا الترميز خطوة حاسمة تتيح تكييف بنية المحول، التي صُممت في الأصل للنصوص، مع مجال الرؤية.

📖

المصطلحات

الميزات الثابتة بتغير المقياس

خصائص يستخرجها محولات الرؤية (Vision Transformers) تظل قوية أمام تغيرات مقياس الكائنات في الصور. تنشأ هذه الخصائص بشكل طبيعي من البنية الشاملة للمحولات بفضل قدرتها على نمذجة العلاقات لمسافات طويلة بين الرقع (patches).

📖

المصطلحات

محول الرؤية من رمز إلى رمز (T2T-ViT)

متغير من محول الرؤية يستخدم عملية ترميز تكرارية لتحويل الرقع (patches) تدريجيًا إلى رموز أكثر إفادة. تتيح هذه الطريقة نمذجة أفضل للبنية المحلية وتقليلًا تدريجيًا للدقة المكانية، مما يحسن الكفاءة الحسابية.

📖

المصطلحات

محول الرؤية الهرمي (PVT)

بنية محول هرمية تولد خرائط ميزات بمقاييس مختلفة، مشابهة لهرميات الميزات في الشبكات العصبية التلافيفية (CNNs). يعد PVT مناسبًا بشكل خاص لمهام الرؤية الكثيفة مثل التجزئة الدلالية واكتشاف الكائنات التي تتطلب تمثيلات متعددة المقاييس.

📖

المصطلحات

محول Swin

بنية محول هرمية مع نوافذ انتباه منزاحة تسمح بنمذجة فعالة للعلاقات المحلية والعالمية بتعقيد خطي. يُدخل محول Swin اتصالات متعددة المقاييس وقد أظهر أداءً استثنائيًا على نطاق واسع من مهام الرؤية.

📖

المصطلحات

محولات الصور الفعالة بالبيانات (DeiT)

متغير من محول الرؤية يتم تدريبه باستراتيجيات تقطير المعرفة لتحقيق أداء تنافسي مع بيانات تدريب أقل. يُدخل DeiT رمز تقطير إضافي يتعلم من تنبؤات معلم CNN، مما يقلل الفجوة في الأداء مع الأساليب القائمة على البيانات الضخمة.

📖

المصطلحات

المشفّرات التلقائية المقنعة (MAE)

نهج للتدريب المسبق ذاتي الإشراف، حيث تتعلم محولات الرؤية عبر إعادة بناء رقع الصور المقنعة من الرقع المرئية المتبقية. تُحقق هذه الطريقة البسيطة والفعالة أداءً رائداً في التدريب المسبق، مع كونها موفرة جداً للموارد الحسابية.

قاموس الذكاء الاصطناعي

رأس MLP

حجم الرقعة

ترميز الصور

الميزات الثابتة بتغير المقياس

محول الرؤية من رمز إلى رمز (T2T-ViT)

محول الرؤية الهرمي (PVT)

محول Swin

محولات الصور الفعالة بالبيانات (DeiT)

المشفّرات التلقائية المقنعة (MAE)

لم يتم العثور على نتائج