मल्टीमॉडल ट्रांसफॉर्मर
ALBEF (एलाइन बिफोर फ्यूज)
एक दृष्टि-भाषा मॉडल जो टेक्स्ट और छवि प्रतिनिधित्व को सह-ध्यान ट्रांसफॉर्मर परतों के माध्यम से संयोजित करने से पहले संरेखित करने के लिए कंट्रास्टिव प्री-ट्रेनिंग का उपयोग करता है, जिससे इंटरैक्शन की गुणवत्ता में सुधार होता है।
← पीछे