मल्टीमॉडल ट्रांसफॉर्मर
दृष्टि-भाषा मॉडल (VLM)
मल्टीमॉडल ट्रांसफॉर्मर का एक विशिष्ट वर्ग जो टेक्स्ट और छवियों की संयुक्त समझ में विशेषज्ञता रखता है, जिसका उपयोग छवि कैप्शनिंग, VQA या टेक्स्ट द्वारा छवि खोज जैसे कार्यों के लिए किया जाता है।
← पीछे