المحولات متعددة الوسائط
Pix2Struct
نموذج محول (Transformer) مُدرب مسبقًا على مهمة تحليل لقطات الشاشة (screenshot parsing)، يتفوق في فهم واجهات المستخدم والرسوم البيانية والمستندات المنظمة بصريًا.
← رجوع