الأسئلة والأجوبة متعددة الوسائط
محول الرؤية واللغة (VLT)
بنية محول مدربة مسبقًا على مجموعات كبيرة من الصور والنصوص المقترنة، مصممة لمهام الفهم والتوليد متعددة الأنماط.
← رجوعبنية محول مدربة مسبقًا على مجموعات كبيرة من الصور والنصوص المقترنة، مصممة لمهام الفهم والتوليد متعددة الأنماط.
← رجوع