المحولات متعددة الوسائط
CLIP
نموذج التدريب المسبق المقابل للغة والصورة المدرب على 400 مليون زوج صورة-نص باستخدام هدف مقابل لتعلم التمثيلات المشتركة بين الرؤية واللغة.
← رجوعنموذج التدريب المسبق المقابل للغة والصورة المدرب على 400 مليون زوج صورة-نص باستخدام هدف مقابل لتعلم التمثيلات المشتركة بين الرؤية واللغة.
← رجوع