Sparse Attention - कृत्रिम बुद्धिमत्ता शब्दावली

📖

शब्द

Longformer

Architecture Transformer utilisant une combinaison d'attention locale par fenêtre glissante et d'attention globale pour traiter efficacement des séquences très longues avec complexité linéaire.

📖

शब्द

Modèle implémentant l'attention sparse à travers trois motifs : attention locale, globale et aléatoire, permettant le traitement de séquences jusqu'à 4096 tokens avec préservation théorique des propriétés universelles.

📖

शब्द

Sliding Window Attention

Technique où chaque token n'attend qu'à un nombre fixe de voisins dans une fenêtre glissante, réduisant la complexité à O(n*w) où w est la taille de la fenêtre.

📖

शब्द

Dilated Sliding Window

Variante de l'attention par fenêtre glissante utilisant des sauts (dilatation) pour augmenter le champ récepteur sans augmenter la complexité computationnelle.

📖

शब्द

Global Attention

Mécanisme où certains tokens prédéfinis (comme tokens [CLS]) peuvent attirer l'attention de tous les autres tokens, permettant la propagation d'information à travers toute la séquence.

📖

शब्द

Random Attention

Approche où chaque token attire aléatoirement l'attention sur un sous-ensemble de tokens distants, préservant les connexions longue distance avec faible surcoût computationnel.

📖

शब्द

Pattern-based Attention

Stratégie appliquant des motifs prédéfinis d'attention sparse (comme motifs fixes ou appris) pour déterminer quelles paires requête-clé calculer.

📖

शब्द

Linear Complexity Attention

Classe de méthodes d'attention réduisant la complexité algorithmique de O(n²) à O(n), permettant le passage à l'échelle pour des séquences très longues.

📖

शब्द

कर्नेल-आधारित अटेंशन

वह दृष्टिकोण जो सॉफ्टमैक्स अटेंशन को अनुमानित करने के लिए कर्नेल का उपयोग करता है, FAVOR+ (फास्ट अटेंशन वाया पॉजिटिव ऑर्थोगोनल रैंडम फीचर्स) जैसी तकनीकों के माध्यम से रेखीय जटिलता वाली गणनाओं की अनुमति देता है।

📖

शब्द

निम्न-रैंक अनुमान

वह तकनीक जो अटेंशन मैट्रिक्स को निम्न-रैंक विघटन द्वारा अनुमानित करती है, जिससे मेमोरी और गणना की आवश्यकताओं को महत्वपूर्ण रूप से कम किया जाता है।

📖

शब्द

क्लस्टरिंग-आधारित अटेंशन

वह विधि जो पहले टोकन्स को समान क्लस्टरों में समूहित करती है और फिर क्लस्टर स्तर पर अटेंशन लागू करती है, जिससे आवश्यक गणनाओं की संख्या कम हो जाती है।

📖

शब्द

राउटिंग अटेंशन

वह तंत्र जो कंटेंट-आधारित राउटिंग फ़ंक्शन का उपयोग करके क्वेरीज़ को सबसे प्रासंगिक कीज़ की ओर रूट करना सीखता है, बेकार गणनाओं से बचता है।

📖

शब्द

रिफॉर्मर

वह आर्किटेक्चर जो लोकेशन सेंसिटिव हैशिंग (LSH) का उपयोग करता है ताकि अटेंशन गणनाओं को सबसे समान जोड़ियों तक सीमित रखा जा सके, सीक्वेंस लंबाई में लगभग रेखीय जटिलता के साथ।

📖

शब्द

परफॉर्मर

वह मॉडल जो FAVOR+ अटेंशन पर आधारित है जो पॉजिटिव ऑर्थोगोनल रैंडम फीचर्स के माध्यम से सॉफ्टमैक्स अटेंशन को कुशलतापूर्वक अनुमानित करता है, रेखीय जटिलता की अनुमति देता है।

📖

शब्द

लिनफॉर्मर

वह आर्किटेक्चर जो की-वैल्यू मैट्रिक्स को निम्न आयामी स्थान में प्रोजेक्ट करता है, जटिलता को O(n²) से O(n*k) में बदलता है जहाँ k << n।

📖

शब्द

राउटिंग ट्रांसफॉर्मर

वह मॉडल जो टोकन्स को समूहित करने के लिए k-means-आधारित राउटिंग का उपयोग करता है और अटेंशन का चयनात्मक रूप से उपयोग करता है, लंबी दूरी की निर्भरताओं के लिए गणनाओं को अनुकूलित करता है।

📖

शब्द

सिंखॉर्ट सॉर्टिंग

सिंखॉर्ट पुनरावृत्ति का उपयोग करके ध्यान को भेदभावपूर्ण परिवर्तन में बदलने के लिए एल्गोरिथ्म, जिसे स्पार्स ध्यान आर्किटेक्चर में लागू किया जाता है।

📖

शब्द

कुशल ध्यान

एक पैराडाइम जो सभी ध्यान वेरिएंट को शामिल करता है जो ट्रांसफॉर्मर की मॉडलिंग क्षमताओं को संरक्षित करते हुए कम्प्यूटेशनल जटिलता को कम करने का लक्ष्य रखता है।

एआई शब्दावली

Longformer

BigBird

Sliding Window Attention

Dilated Sliding Window

Global Attention

Random Attention

Pattern-based Attention

Linear Complexity Attention

कर्नेल-आधारित अटेंशन

निम्न-रैंक अनुमान

क्लस्टरिंग-आधारित अटेंशन

राउटिंग अटेंशन

रिफॉर्मर

परफॉर्मर

लिनफॉर्मर

राउटिंग ट्रांसफॉर्मर

सिंखॉर्ट सॉर्टिंग

कुशल ध्यान

कोई परिणाम नहीं मिला