एआई शब्दावली
आर्टिफिशियल इंटेलिजेंस का पूर्ण शब्दकोश
मल्टी-हेड सेल्फ-अटेंशन
एक ऐसी प्रणाली जहाँ मॉडल क्वेरी, कुंजी और मानों के विभिन्न रेखीय अनुमानों के साथ समानांतर में कई बार अटेंशन की गणना करता है, जिससे अनुक्रम में विभिन्न स्थितियों पर विविध निर्भरताओं को कैप्चर किया जा सके।
क्वेरी (Query)
वर्तमान तत्व का प्रतिनिधित्व करने वाला एक वेक्टर जिसके लिए अटेंशन की गणना की जानी है, जिसका उपयोग कुंजियों के साथ इंटरैक्ट करने के लिए किया जाता है ताकि अनुक्रम में प्रत्येक मान के महत्व को निर्धारित किया जा सके।
कुंजी (Key)
अनुक्रम के प्रत्येक तत्व से जुड़ा एक वेक्टर, जिसका उपयोग अटेंशन स्कोर की गणना करने और प्रत्येक तत्व की प्रासंगिकता निर्धारित करने के लिए क्वेरी के साथ तुलना करने के लिए किया जाता है।
मान (Value)
अनुक्रम के प्रत्येक तत्व की वास्तविक जानकारी वाला वेक्टर, जिसे अटेंशन तंत्र के आउटपुट को उत्पन्न करने के लिए अटेंशन भार द्वारा भारित किया जाता है।
रेखीय अनुमान (Linear Projection)
अटेंशन के प्रत्येक हेड में क्वेरी, कुंजी और मानों पर लागू एक मैट्रिक्स गुणन ऑपरेशन, उन्हें कम-आयामी उप-स्थानों में प्रोजेक्ट करने के लिए, जिससे विविध प्रतिनिधित्व संभव हो सकें।
मॉडल आयाम (d_model)
हेड के संयोजन के बाद क्वेरी, कुंजी और मानों के प्रतिनिधित्व के लिए उपयोग किए जाने वाले एम्बेडिंग स्पेस का आकार, ट्रांसफार्मर आर्किटेक्चर का एक प्रमुख पैरामीटर।
हेड आयाम (d_k)
वह कम किया गया आयाम जिस पर अटेंशन के प्रत्येक हेड में क्वेरी और कुंजियों को प्रोजेक्ट किया जाता है, जिसकी गणना मॉडल आयाम को हेड की संख्या से विभाजित करके की जाती है।
मान आयाम (d_v)
वह आयाम जिस पर मान वेक्टर को अटेंशन के प्रत्येक हेड में प्रोजेक्ट किया जाता है, अक्सर आर्किटेक्चर को सरल बनाने के लिए हेड आयाम (d_k) के समान होता है।
कुंजियों पर सॉफ्टमैक्स
अटेंशन स्कोर (क्वेरी-की डॉट उत्पाद) पर सॉफ्टमैक्स फ़ंक्शन का अनुप्रयोग, जिससे अटेंशन वेट के रूप में कार्य करने वाली एक सामान्यीकृत संभाव्यता वितरण प्राप्त होता है।
समानांतर अटेंशन तंत्र
एक कार्यान्वयन जहाँ सभी अटेंशन हेड को समूहीकृत मैट्रिक्स ऑपरेशंस का उपयोग करके एक साथ गणना की जाती है, जिससे GPU पर कम्प्यूटेशनल दक्षता अनुकूलित होती है।
प्रतिनिधित्व का उप-स्थान
एक निम्न-आयामी वेक्टर स्थान जिसमें प्रत्येक अटेंशन हेड डेटा को प्रोजेक्ट करता है, जिससे डेटा में विभिन्न प्रकार के संबंधों और पैटर्न को कैप्चर किया जा सकता है।
अटेंशन वेट्स (ध्यान भार)
सॉफ्टमैक्स फ़ंक्शन से प्राप्त सामान्यीकृत गुणांक जो वर्तमान तत्व के आउटपुट के निर्माण के लिए प्रत्येक मान के महत्व को निर्धारित करते हैं।
दीर्घकालिक निर्भरता
स्व-अटेंशन तंत्र की क्षमता जो अनुक्रम में दूर के टोकन के बीच संबंधों को सीधे मॉडल करती है, जिससे आवर्ती नेटवर्क की एक सीमा को दूर किया जा सकता है।