एआई शब्दावली
आर्टिफिशियल इंटेलिजेंस का पूर्ण शब्दकोश
Longformer
Architecture Transformer utilisant une combinaison d'attention locale par fenêtre glissante et d'attention globale pour traiter efficacement des séquences très longues avec complexité linéaire.
BigBird
Modèle implémentant l'attention sparse à travers trois motifs : attention locale, globale et aléatoire, permettant le traitement de séquences jusqu'à 4096 tokens avec préservation théorique des propriétés universelles.
Sliding Window Attention
Technique où chaque token n'attend qu'à un nombre fixe de voisins dans une fenêtre glissante, réduisant la complexité à O(n*w) où w est la taille de la fenêtre.
Dilated Sliding Window
Variante de l'attention par fenêtre glissante utilisant des sauts (dilatation) pour augmenter le champ récepteur sans augmenter la complexité computationnelle.
Global Attention
Mécanisme où certains tokens prédéfinis (comme tokens [CLS]) peuvent attirer l'attention de tous les autres tokens, permettant la propagation d'information à travers toute la séquence.
Random Attention
Approche où chaque token attire aléatoirement l'attention sur un sous-ensemble de tokens distants, préservant les connexions longue distance avec faible surcoût computationnel.
Pattern-based Attention
Stratégie appliquant des motifs prédéfinis d'attention sparse (comme motifs fixes ou appris) pour déterminer quelles paires requête-clé calculer.
Linear Complexity Attention
Classe de méthodes d'attention réduisant la complexité algorithmique de O(n²) à O(n), permettant le passage à l'échelle pour des séquences très longues.
कर्नेल-आधारित अटेंशन
वह दृष्टिकोण जो सॉफ्टमैक्स अटेंशन को अनुमानित करने के लिए कर्नेल का उपयोग करता है, FAVOR+ (फास्ट अटेंशन वाया पॉजिटिव ऑर्थोगोनल रैंडम फीचर्स) जैसी तकनीकों के माध्यम से रेखीय जटिलता वाली गणनाओं की अनुमति देता है।
निम्न-रैंक अनुमान
वह तकनीक जो अटेंशन मैट्रिक्स को निम्न-रैंक विघटन द्वारा अनुमानित करती है, जिससे मेमोरी और गणना की आवश्यकताओं को महत्वपूर्ण रूप से कम किया जाता है।
क्लस्टरिंग-आधारित अटेंशन
वह विधि जो पहले टोकन्स को समान क्लस्टरों में समूहित करती है और फिर क्लस्टर स्तर पर अटेंशन लागू करती है, जिससे आवश्यक गणनाओं की संख्या कम हो जाती है।
राउटिंग अटेंशन
वह तंत्र जो कंटेंट-आधारित राउटिंग फ़ंक्शन का उपयोग करके क्वेरीज़ को सबसे प्रासंगिक कीज़ की ओर रूट करना सीखता है, बेकार गणनाओं से बचता है।
रिफॉर्मर
वह आर्किटेक्चर जो लोकेशन सेंसिटिव हैशिंग (LSH) का उपयोग करता है ताकि अटेंशन गणनाओं को सबसे समान जोड़ियों तक सीमित रखा जा सके, सीक्वेंस लंबाई में लगभग रेखीय जटिलता के साथ।
परफॉर्मर
वह मॉडल जो FAVOR+ अटेंशन पर आधारित है जो पॉजिटिव ऑर्थोगोनल रैंडम फीचर्स के माध्यम से सॉफ्टमैक्स अटेंशन को कुशलतापूर्वक अनुमानित करता है, रेखीय जटिलता की अनुमति देता है।
लिनफॉर्मर
वह आर्किटेक्चर जो की-वैल्यू मैट्रिक्स को निम्न आयामी स्थान में प्रोजेक्ट करता है, जटिलता को O(n²) से O(n*k) में बदलता है जहाँ k << n।
राउटिंग ट्रांसफॉर्मर
वह मॉडल जो टोकन्स को समूहित करने के लिए k-means-आधारित राउटिंग का उपयोग करता है और अटेंशन का चयनात्मक रूप से उपयोग करता है, लंबी दूरी की निर्भरताओं के लिए गणनाओं को अनुकूलित करता है।
सिंखॉर्ट सॉर्टिंग
सिंखॉर्ट पुनरावृत्ति का उपयोग करके ध्यान को भेदभावपूर्ण परिवर्तन में बदलने के लिए एल्गोरिथ्म, जिसे स्पार्स ध्यान आर्किटेक्चर में लागू किया जाता है।
कुशल ध्यान
एक पैराडाइम जो सभी ध्यान वेरिएंट को शामिल करता है जो ट्रांसफॉर्मर की मॉडलिंग क्षमताओं को संरक्षित करते हुए कम्प्यूटेशनल जटिलता को कम करने का लक्ष्य रखता है।