محولات الرؤية (ViT)
التدريب المسبق على مجموعات البيانات الكبيرة
مرحلة تدريب أولية على ملايين الصور مثل ImageNet-21k لتعلم تمثيلات بصرية عامة قبل الضبط الدقيق.
← رجوعمرحلة تدريب أولية على ملايين الصور مثل ImageNet-21k لتعلم تمثيلات بصرية عامة قبل الضبط الدقيق.
← رجوع