النماذج متعددة الوسائط
نموذج اللغة البصرية (VLM)
فئة فرعية من النماذج متعددة الوسائط المتخصصة في الفهم المشترك للنص والصور، القادرة على مهام مثل تسمية الصور، الاستدلال البصري، أو توليد الصور من النص.
← رجوع