ऑडियो के लिए ट्रांसफॉर्मर - कृत्रिम बुद्धिमत्ता शब्दावली

📖

शब्द

ऑडियो स्पेक्ट्रोग्राम ट्रांसफार्मर (AST)

एक ट्रांसफार्मर आर्किटेक्चर जो सीधे ऑडियो स्पेक्ट्रोग्राम प्रतिनिधित्व पर ध्यान तंत्र लागू करता है, सिग्नल को वर्गीकरण कार्यों के लिए 2D छवि के रूप में मानता है।

📖

शब्द

कन्फॉर्मर

वाक् पहचान के लिए एक हाइब्रिड मॉडल आर्किटेक्चर जो ऑडियो अनुक्रमों में स्थानीय और वैश्विक दोनों निर्भरताओं को पकड़ने के लिए कनवोल्यूशन, सेल्फ-अटेंशन और फीड-फॉरवर्ड मॉड्यूल को जोड़ता है।

📖

शब्द

वेव2वेक 2.0

वाक् पहचान के लिए एक स्व-पर्यवेक्षित शिक्षण फ्रेमवर्क जिसे कच्चे ऑडियो डेटा पर पूर्व-प्रशिक्षित किया गया है, बोले गए भाषा के असतत प्रतिनिधित्व सीखने के लिए वेक्टर क्वांटाइजेशन का उपयोग करता है।

📖

शब्द

ह्यूबर्ट

हाइरार्किकल हिडन-यूनिट BERT, एक स्व-पर्यवेक्षित मॉडल जो ध्वनिक विशेषताओं के क्लस्टर से अव्यक्त इकाइयों की भविष्यवाणी करके पदानुक्रमित ऑडियो प्रतिनिधित्व सीखता है।

📖

शब्द

जूकबॉक्स

एक ट्रांसफार्मर और VQ-VAE-आधारित जनरेटिव मॉडल जो उच्च-निष्ठा वाली आवाज़ों के साथ कच्चा संगीत उत्पन्न करने में सक्षम है, कलात्मक और सामान्य मेटाडेटा पर पीढ़ी को कंडीशनिंग करता है।

📖

शब्द

म्यूजिक ट्रांसफार्मर

एक सापेक्ष ध्यान तंत्र के साथ एक ट्रांसफार्मर आर्किटेक्चर जिसे लंबे संगीत अनुक्रमों के मॉडलिंग के लिए अनुकूलित किया गया है, जो संरचनात्मक संगति के साथ संगीत के टुकड़े उत्पन्न करने में सक्षम है।

📖

शब्द

स्पेकऑगमेंट

ऑडियो मॉडल के लिए एक नियमितीकरण तकनीक जो सिग्नल भ्रष्टाचार के प्रति मॉडल की मजबूती में सुधार के लिए स्पेक्ट्रोग्राम (आवृत्ति और समय) पर मास्किंग परिवर्तन लागू करती है।

📖

शब्द

ऑडियो अनुक्रमों पर सेल्फ-अटेंशन

ध्वनिक वैक्टर के अनुक्रमों पर सेल्फ-अटेंशन तंत्र का अनुप्रयोग, मॉडल को भविष्यवाणी के लिए ऑडियो सिग्नल के विभिन्न हिस्सों के महत्व को गतिशील रूप से भारित करने की अनुमति देता है।

📖

शब्द

ऑडियो टोकनाइजेशन

एक सतत ऑडियो सिग्नल को असतत टोकन के अनुक्रम में बदलने की प्रक्रिया, अक्सर VQ-VAE के माध्यम से, ताकि इसे टोकन-आधारित ट्रांसफार्मर आर्किटेक्चर के साथ संगत बनाया जा सके।

📖

शब्द

ऑडियो-टेक्स्ट क्रॉस-अटेंशन

एक अटेंशन मैकेनिज्म जहाँ क्वेरी एक मोडैलिटी (जैसे: टेक्स्ट) से आती हैं और की/वैल्यू दूसरी (जैसे: ऑडियो) से आती हैं, जो स्पीच रिकॉग्निशन और ऑडियो नरेशन मॉडल के लिए मौलिक है।

📖

शब्द

एक परसीवर IO-आधारित आर्किटेक्चर जो परिवर्तनीय लंबाई के ऑडियो अनुक्रमों को भविष्यवाणियाँ उत्पन्न करने से पहले उन्हें एक निश्चित आकार के अव्यक्त स्थान में परिवर्तित करके संसाधित करता है, जो वर्गीकरण और प्रतिलेखन कार्यों के लिए कुशल है।

📖

शब्द

स्क्वीज़-एंड-एक्साइटेशन ऑडियो

ऑडियो डेटा के लिए अनुकूलित एक चैनल अटेंशन ब्लॉक, जो चैनलों के बीच अंतर-निर्भरताओं को मॉडल करके स्पेक्ट्रोग्राम मैप्स की विशेषता प्रतिक्रियाओं को गतिशील रूप से पुनर्गठित करना सीखता है।

📖

शब्द

ऑडियो के लिए कनवोल्यूशनल ट्रांसफार्मर (CTT)

एक आर्किटेक्चर जो ट्रांसफार्मर ब्लॉक में कनवोल्यूशन को एकीकृत करता है ताकि वैश्विक निर्भरताओं के लिए सेल्फ-अटेंशन लागू करने से पहले स्पेक्ट्रोग्राम में स्थानीय पैटर्न को प्रभावी ढंग से कैप्चर किया जा सके।

📖

शब्द

ऑडियो कंट्रास्टिव ट्रेनिंग (CLAP)

एक मल्टीमॉडल लर्निंग विधि जो एक साझा स्थान में ऑडियो और टेक्स्ट प्रतिनिधित्व को संरेखित करने के लिए एक कंट्रास्टिव लॉस का उपयोग करती है, जिससे ज़ीरो-शॉट ऑडियो वर्गीकरण संभव होता है।

📖

शब्द

ऑडियो ट्रांसफार्मर में कॉज़ल डिले

एक आर्किटेक्चरल बाधा जहाँ किसी दिए गए टाइमस्टेप के लिए अटेंशन केवल वर्तमान और पिछले टाइमस्टेप पर ही हो सकता है, जो स्ट्रीमिंग और रियल-टाइम ऑडियो जनरेशन मॉडल के लिए आवश्यक है।

📖

शब्द

स्पेक्ट्रोग्राम के लिए 2D पोजीशनल एन्कोडिंग

एक पोजीशनल एन्कोडिंग तकनीक जो स्पेक्ट्रोग्राम से निकाले गए टोकन के लिए स्थानिक जानकारी (समय और आवृत्ति) को एन्कोड करती है, जिससे ट्रांसफार्मर को ऑडियो सिग्नल की 2D संरचना को समझने में मदद मिलती है।

📖

शब्द

विशिष्ट ऑडियो कार्यों पर फाइन-ट्यूनिंग

एक बड़े डेटाबेस पर पूर्व-प्रशिक्षित ऑडियो ट्रांसफार्मर को ध्वनि घटना का पता लगाने या वक्ता की पहचान जैसे लक्षित कार्य के लिए अनुकूलित करने की प्रक्रिया, जिसमें परतों को फ्रीज करना या चुनिंदा रूप से पुनः प्रशिक्षित करना शामिल है।

📖

शब्द

ऑडियो भाषा मॉडल (AudioLM)

एक ऐसा दृष्टिकोण जो ऑडियो जनरेशन को भाषा मॉडलिंग कार्य के रूप में मानता है, जिसमें एक ट्रांसफार्मर के साथ असतत ध्वनिक टोकन की भविष्यवाणी की जाती है, जैसा कि भाषा मॉडल पाठ उत्पन्न करते हैं।

एआई शब्दावली

ऑडियो स्पेक्ट्रोग्राम ट्रांसफार्मर (AST)

कन्फॉर्मर

वेव2वेक 2.0

ह्यूबर्ट

जूकबॉक्स

म्यूजिक ट्रांसफार्मर

स्पेकऑगमेंट

ऑडियो अनुक्रमों पर सेल्फ-अटेंशन

ऑडियो टोकनाइजेशन

ऑडियो-टेक्स्ट क्रॉस-अटेंशन

परसीवर IO ऑडियो

स्क्वीज़-एंड-एक्साइटेशन ऑडियो

ऑडियो के लिए कनवोल्यूशनल ट्रांसफार्मर (CTT)

ऑडियो कंट्रास्टिव ट्रेनिंग (CLAP)

ऑडियो ट्रांसफार्मर में कॉज़ल डिले

स्पेक्ट्रोग्राम के लिए 2D पोजीशनल एन्कोडिंग

विशिष्ट ऑडियो कार्यों पर फाइन-ट्यूनिंग

ऑडियो भाषा मॉडल (AudioLM)

कोई परिणाम नहीं मिला