محولات الرؤية
ترميز الصور
عملية تحويل صورة ثنائية الأبعاد إلى تسلسل أحادي البعد من الرموز (tokens) يمكن معالجتها بواسطة المحولات (Transformers)، مما يتضمن التقسيم إلى رقع (patches) والإسقاط الخطي. يعد هذا الترميز خطوة حاسمة تتيح تكييف بنية المحول، التي صُممت في الأصل للنصوص، مع مجال الرؤية.
← رجوع