قاموس الذكاء الاصطناعي
القاموس الكامل للذكاء الاصطناعي
الانتباه الذاتي متعدد الرؤوس (MHSA)
آلية تسمح للنموذج بالتركيز على أجزاء مختلفة من الصورة في وقت واحد عن طريق حساب عدة مصفوفات انتباه بالتوازي، مما يسمح بالتقاط أنواع مختلفة من العلاقات المكانية.
مقياس الطبقة
تقنية تنظيمية تم تقديمها في محولات الرؤية العميقة (ViT) حيث يتم تطبيق أوزان قابلة للتعلم على مخرجات البقايا لتحقيق استقرار تدريب الطبقات الأولية.
الانتباه المعنون
آلية انتباه مقيدة بنوافذ محلية غير متداخلة من الصورة، مما يقلل التعقيد الحسابي من O(n²) إلى O(n) حيث n هو عدد الرقع.
انتباه النافذة المنزاحة
تقنية يتم فيها إزاحة نوافذ الانتباه بين الطبقات للسماح باتصالات عبر النوافذ، مما يحسن قدرة النموذج على نمذجة العلاقات بعيدة المدى.
DeiT (محول الصورة الكفء في البيانات)
نوع مختلف من ViT قابل للتدريب بكميات متواضعة من البيانات من خلال استراتيجية تقطير المعرفة حيث يتم إضافة رمز تقطير للتعلم من معلم CNN.
رمز التقطير
رمز إضافي في DeiT يتعلم تقليد توقعات نموذج المعلم (غالباً CNN)، مما يسهل نقل المعرفة ويحسن الأداء ببيانات أقل.
المشفر الذاتي المقنع (MAE)
نهج الإشراف الذاتي لـ ViT حيث يتم إخفاء رقع عشوائية من الصورة (حتى 75%) ويتعلم النموذج إعادة بنائها، مما يكشف قدرات تعليمية مدهشة.
دمج الرقع
عملية في المحولات الهرمية تجمع مجموعات من 2x2 رقع مجاورة لإنشاء رموز بدقة أقل، مما يزيد العمق والمجال الاستقبالي.
التحيز النسبي للموقع
تحيز يضاف إلى درجات الانتباه التي تعتمد على الموقع النسبي للبقع، مما يحسن قدرة النموذج على فهم العلاقات المكانية دون ترميز للموقع المطلق.
الهجين المعماري
نهج يجمع بين شبكة التفافية أولية لاستخراج الميزات مع محول للمعالجة الشاملة، تم استخدامه في التطبيقات الأولى لـ ViT لتقليل احتياجات البيانات.
وسم الرموز
استراتيجية تدريب حيث تتلقى كل بقعة علامة مشرفة بدلاً من علامة واحدة لكل صورة، مما يجبر النموذج على تعلم تمثيلات أكثر ثراءً ومحلية.