एआई शब्दावली
आर्टिफिशियल इंटेलिजेंस का पूर्ण शब्दकोश
Sparse Transformer
वेरिएंट जो पूर्वानुमानित स्पार्स अटेंशन पैटर्न का उपयोग करता है ताकि कम्प्यूटेशनल कनेक्शन को कम किया जा सके और साथ ही लंबी दूरी की निर्भरताओं को कैप्चर किया जा सके। आर्किटेक्चर अटेंशन को उप-समूहों में विभाजित करती है ताकि प्रोसेसिंग को ऑप्टिमाइज़ किया जा सके।
Compressive Transformer
ट्रांसफॉर्मर-एक्सएल का विस्तार जो पुरानी हिडन मेमोरीज़ को अधिक घने वेक्टर्स में कंप्रेस करता है ताकि लंबी अवधि का इतिहास सुरक्षित रखा जा सके। यह कंप्रेशन व्यापक संदर्भात्मक जानकारी के प्रभावी स्टोरेज की अनुमति देता है।
Universal Transformer
एक एडेप्टिव आर्किटेक्चर जहां गहराई एक एडेप्टिव स्टॉपिंग मैकेनिज्म द्वारा गतिशील रूप से निर्धारित की जाती है, न कि निश्चित रूप से। यूनिवर्सल ट्रांसफॉर्मर एडेप्टिव अटेंशन के साथ शेयर्ड वेट ट्रांसफॉर्मेशन को इटरेटिवली लागू करता है।
Set Transformer
अटेंशन-आधारित परम्यूटेशन-इनवेरिएंट आर्किटेक्चर जो पूर्वनिर्धारित क्रम के बिना डेटा सेट को प्रोसेस करने के लिए है। सेट ट्रांसफॉर्मर सेट ऑपरेशन के लिए इंड्यूस्ड अटेंशन ब्लॉक और पूलिंग मैकेनिज्म का उपयोग करता है।
Synthesizer
एक वेरिएंट जहां अटेंशन वेट सीधे पोजिशन एम्बेडिंग से सीखे जाते हैं या छोटे नेटवर्क द्वारा उत्पन्न किए जाते हैं, टोकन के कंटेंट पर निर्भर नहीं करते। यह अप्रोच QK सिमिलैरिटी कैलकुलेशन की आवश्यकता को खत्म करती है।
Linear Transformer
आर्किटेक्चर जो अटेंशन के कर्नेलाइज्ड डिकम्पोजिशन का उपयोग करके सीक्वेंस और मेमोरी में रैखिक जटिलता प्राप्त करती है। लीनियर ट्रांसफॉर्मर सॉफ्टमैक्स को पॉजिटिव कर्नेल फंक्शन से बदलता है ताकि एसोसिएटिव रिऑर्डरिंग की अनुमति मिल सके।
Local Attention
अटेंशन मैकेनिज्म जो प्रत्येक स्थान के आसपास के स्थानीय पड़ोस तक सीमित है, जिससे विचार करने के लिए टोकन जोड़ों की संख्या में नाटकीय रूप से कमी आती है। यह अप्रोच मजबूत स्थानीय संरचना वाले डेटा के लिए विशेष रूप से प्रभावी है।
Dilated Attention
स्लाइडिंग विंडो अटेंशन का विस्तार जो बिना जटिलता बढ़ाए लंबी रेंज की निर्भरताओं को कैप्चर करने के लिए डायलेटेड पैटर्न का उपयोग करता है। पैटर्न में छिद्र रिसेप्टिव फील्ड के एक्सपोनेंशियल एक्सपेंशन की अनुमति देते हैं।
अक्षीय ध्यान
बहुआयामी ध्यान को एकआयामी ध्यान में विघटित करना जो प्रत्येक अक्ष पर अनुक्रमिक रूप से लागू होता है। अक्षीय ध्यान जटिलता को O(n²) से O(n*d) तक कम कर देता है जहां d आयामों की संख्या है।