رؤية المحولات (ViT)
الانتباه الذاتي متعدد الرؤوس (MHSA)
آلية تسمح للنموذج بالتركيز على أجزاء مختلفة من الصورة في وقت واحد عن طريق حساب عدة مصفوفات انتباه بالتوازي، مما يسمح بالتقاط أنواع مختلفة من العلاقات المكانية.
← رجوع