قاموس الذكاء الاصطناعي

القاموس الكامل للذكاء الاصطناعي

227

الفئات

2,955

الفئات الفرعية

34,512

المصطلحات

تقسيم الصورة إلى شبكات منتظمة من أقسام مربعة صغيرة (عادةً 16x16 بكسل) يتم التعامل معها كرموز متسلسلة بواسطة محول الرؤية (ViT).

عملية تقسيم الصورة إلى تسلسل من الرموز المنفصلة، وهي أساسية لتكييف بنية المحول (Transformer) المصممة في الأصل للنصوص مع البيانات المرئية.

نسخة من محول الرؤية (Vision Transformer) تم تدريبها باستخدام استراتيجيات التقطير (distillation) لتحقيق أداء تنافسي بكمية أقل من بيانات التدريب.

بنى المحولات التي تحافظ على تمثيلات متعددة المقاييس للصورة، وتجمع بين مزايا الشبكات العصبية التلافيفية التقليدية (CNNs) ومرونة المحولات.

تقنية تطبيع تُطبق على البقايا (residuals) في طبقات المحول لتثبيت التدريب وتحسين تقارب النماذج العميقة.

بنية تستخدم آليات الانتباه المتقاطع بين أنماط أو تمثيلات مختلفة، مما يسمح بتفاعلات أغنى بين الميزات.

نسخة من الانتباه تقتصر على النوافذ المحلية بدلاً من الصورة الكاملة، مما يقلل من التعقيد الحسابي مع التقاط العلاقات المحلية المهمة.

🔍