एआई शब्दावली
आर्टिफिशियल इंटेलिजेंस का पूर्ण शब्दकोश
ऑडियो स्पेक्ट्रोग्राम ट्रांसफार्मर (AST)
एक ट्रांसफार्मर आर्किटेक्चर जो सीधे ऑडियो स्पेक्ट्रोग्राम प्रतिनिधित्व पर ध्यान तंत्र लागू करता है, सिग्नल को वर्गीकरण कार्यों के लिए 2D छवि के रूप में मानता है।
कन्फॉर्मर
वाक् पहचान के लिए एक हाइब्रिड मॉडल आर्किटेक्चर जो ऑडियो अनुक्रमों में स्थानीय और वैश्विक दोनों निर्भरताओं को पकड़ने के लिए कनवोल्यूशन, सेल्फ-अटेंशन और फीड-फॉरवर्ड मॉड्यूल को जोड़ता है।
वेव2वेक 2.0
वाक् पहचान के लिए एक स्व-पर्यवेक्षित शिक्षण फ्रेमवर्क जिसे कच्चे ऑडियो डेटा पर पूर्व-प्रशिक्षित किया गया है, बोले गए भाषा के असतत प्रतिनिधित्व सीखने के लिए वेक्टर क्वांटाइजेशन का उपयोग करता है।
ह्यूबर्ट
हाइरार्किकल हिडन-यूनिट BERT, एक स्व-पर्यवेक्षित मॉडल जो ध्वनिक विशेषताओं के क्लस्टर से अव्यक्त इकाइयों की भविष्यवाणी करके पदानुक्रमित ऑडियो प्रतिनिधित्व सीखता है।
जूकबॉक्स
एक ट्रांसफार्मर और VQ-VAE-आधारित जनरेटिव मॉडल जो उच्च-निष्ठा वाली आवाज़ों के साथ कच्चा संगीत उत्पन्न करने में सक्षम है, कलात्मक और सामान्य मेटाडेटा पर पीढ़ी को कंडीशनिंग करता है।
म्यूजिक ट्रांसफार्मर
एक सापेक्ष ध्यान तंत्र के साथ एक ट्रांसफार्मर आर्किटेक्चर जिसे लंबे संगीत अनुक्रमों के मॉडलिंग के लिए अनुकूलित किया गया है, जो संरचनात्मक संगति के साथ संगीत के टुकड़े उत्पन्न करने में सक्षम है।
स्पेकऑगमेंट
ऑडियो मॉडल के लिए एक नियमितीकरण तकनीक जो सिग्नल भ्रष्टाचार के प्रति मॉडल की मजबूती में सुधार के लिए स्पेक्ट्रोग्राम (आवृत्ति और समय) पर मास्किंग परिवर्तन लागू करती है।
ऑडियो अनुक्रमों पर सेल्फ-अटेंशन
ध्वनिक वैक्टर के अनुक्रमों पर सेल्फ-अटेंशन तंत्र का अनुप्रयोग, मॉडल को भविष्यवाणी के लिए ऑडियो सिग्नल के विभिन्न हिस्सों के महत्व को गतिशील रूप से भारित करने की अनुमति देता है।
ऑडियो टोकनाइजेशन
एक सतत ऑडियो सिग्नल को असतत टोकन के अनुक्रम में बदलने की प्रक्रिया, अक्सर VQ-VAE के माध्यम से, ताकि इसे टोकन-आधारित ट्रांसफार्मर आर्किटेक्चर के साथ संगत बनाया जा सके।
ऑडियो-टेक्स्ट क्रॉस-अटेंशन
एक अटेंशन मैकेनिज्म जहाँ क्वेरी एक मोडैलिटी (जैसे: टेक्स्ट) से आती हैं और की/वैल्यू दूसरी (जैसे: ऑडियो) से आती हैं, जो स्पीच रिकॉग्निशन और ऑडियो नरेशन मॉडल के लिए मौलिक है।
परसीवर IO ऑडियो
एक परसीवर IO-आधारित आर्किटेक्चर जो परिवर्तनीय लंबाई के ऑडियो अनुक्रमों को भविष्यवाणियाँ उत्पन्न करने से पहले उन्हें एक निश्चित आकार के अव्यक्त स्थान में परिवर्तित करके संसाधित करता है, जो वर्गीकरण और प्रतिलेखन कार्यों के लिए कुशल है।
स्क्वीज़-एंड-एक्साइटेशन ऑडियो
ऑडियो डेटा के लिए अनुकूलित एक चैनल अटेंशन ब्लॉक, जो चैनलों के बीच अंतर-निर्भरताओं को मॉडल करके स्पेक्ट्रोग्राम मैप्स की विशेषता प्रतिक्रियाओं को गतिशील रूप से पुनर्गठित करना सीखता है।
ऑडियो के लिए कनवोल्यूशनल ट्रांसफार्मर (CTT)
एक आर्किटेक्चर जो ट्रांसफार्मर ब्लॉक में कनवोल्यूशन को एकीकृत करता है ताकि वैश्विक निर्भरताओं के लिए सेल्फ-अटेंशन लागू करने से पहले स्पेक्ट्रोग्राम में स्थानीय पैटर्न को प्रभावी ढंग से कैप्चर किया जा सके।
ऑडियो कंट्रास्टिव ट्रेनिंग (CLAP)
एक मल्टीमॉडल लर्निंग विधि जो एक साझा स्थान में ऑडियो और टेक्स्ट प्रतिनिधित्व को संरेखित करने के लिए एक कंट्रास्टिव लॉस का उपयोग करती है, जिससे ज़ीरो-शॉट ऑडियो वर्गीकरण संभव होता है।
ऑडियो ट्रांसफार्मर में कॉज़ल डिले
एक आर्किटेक्चरल बाधा जहाँ किसी दिए गए टाइमस्टेप के लिए अटेंशन केवल वर्तमान और पिछले टाइमस्टेप पर ही हो सकता है, जो स्ट्रीमिंग और रियल-टाइम ऑडियो जनरेशन मॉडल के लिए आवश्यक है।
स्पेक्ट्रोग्राम के लिए 2D पोजीशनल एन्कोडिंग
एक पोजीशनल एन्कोडिंग तकनीक जो स्पेक्ट्रोग्राम से निकाले गए टोकन के लिए स्थानिक जानकारी (समय और आवृत्ति) को एन्कोड करती है, जिससे ट्रांसफार्मर को ऑडियो सिग्नल की 2D संरचना को समझने में मदद मिलती है।
विशिष्ट ऑडियो कार्यों पर फाइन-ट्यूनिंग
एक बड़े डेटाबेस पर पूर्व-प्रशिक्षित ऑडियो ट्रांसफार्मर को ध्वनि घटना का पता लगाने या वक्ता की पहचान जैसे लक्षित कार्य के लिए अनुकूलित करने की प्रक्रिया, जिसमें परतों को फ्रीज करना या चुनिंदा रूप से पुनः प्रशिक्षित करना शामिल है।
ऑडियो भाषा मॉडल (AudioLM)
एक ऐसा दृष्टिकोण जो ऑडियो जनरेशन को भाषा मॉडलिंग कार्य के रूप में मानता है, जिसमें एक ट्रांसफार्मर के साथ असतत ध्वनिक टोकन की भविष्यवाणी की जाती है, जैसा कि भाषा मॉडल पाठ उत्पन्न करते हैं।