المحولات متعددة الوسائط
FLAVA (محاذاة اللغة والرؤية الأساسية)
نموذج أساسي متعدد الوسائط موحد بهندسة Transformer بسيطة، مُدرب مسبقًا بشكل متزامن على بيانات نصية فقط، وصورية فقط، ومتعددة الوسائط.
← رجوع