एआई शब्दावली
आर्टिफिशियल इंटेलिजेंस का पूर्ण शब्दकोश
क्यू फंक्शन
एक विशिष्ट क्रिया की गुणवत्ता को मापने वाला फ़ंक्शन जो भविष्य के पुरस्कार के संदर्भ में एक निश्चित स्थिति में कार्य की गुणवत्ता को मात्रात्मक रूप देता है।
क्यू फंक्शन डिकम्पोज़िशन
क्यू(एस,ए) फ़ंक्शन को दो घटकों में अलग करने की तकनीक: स्थिति का मूल्य वी(एस) और लाभ ए(एस,ए) ताकि सीखने की दक्षता में सुधार हो सके।
लाभ
एक माप जो यह बताता है कि किसी दिए गए स्थिति में संभावित सभी क्रियाओं की तुलना में कोई क्रिया कितनी बेहतर है, जिसे ए(एस,ए) = क्यू(एस,ए) - वी(एस) के रूप में परिभाषित किया गया है।
ड्यूलिंग संरचना
तंत्रिका नेटवर्क की एक संरचना जिसमें दो अलग-अलग प्रवाह होते हैं: एक वी(एस) का अनुमान लगाने के लिए और दूसरा ए(एस,ए) का अनुमान लगाने के लिए, जिसे पुनः संयोजित करके क्यू(एस,ए) प्राप्त किया जाता है।
मूल्य आकलक
ड्यूलिंग संरचना का वह हिस्सा जो संभावित क्रियाओं से स्वतंत्र प्रत्येक स्थिति के आंतरिक मूल्य का अनुमान लगाता है।
लाभ आकलक
ड्यूलिंग नेटवर्क का घटक जो किसी स्थिति में सभी क्रियाओं के औसत मूल्य की तुलना में प्रत्येक क्रिया का सापेक्ष लाभ परिकलित करता है।
विचरण कमी
क्यू डिकम्पोज़िशन का मुख्य लाभ जहां मूल्य/लाभ अलगाव सीखने को स्थिर बनाने के लिए अनुमानों के विचरण को कम करता है।
सीखने की स्थिरता
सीखने की एक विशेषता जो प्रशिक्षण के दौरान अत्यधिक दोलन या विचलन के बिना विश्वसनीय रूप से अभिसरण करती है।
स्टेट-एक्शन
पुनर्बलन सीखने में मौलिक जोड़ियाँ जो विशिष्ट परिस्थिति और पर्यावरण में संबद्ध क्रिया चुनाव का प्रतिनिधित्व करती हैं।
एडवांटेज एग्रीगेशन
मूल्य और एडवांटेज एस्टिमेटर के आउटपुट को संयोजित करने वाला ऑपरेशन जो Q(s,a) = V(s) + A(s,a) पहचान का पालन करते हुए अंतिम Q फंक्शन को पुनर्निर्मित करता है।
एडवांटेज नॉर्मलाइजेशन
dueling संरचना में V(s) और A(s,a) के बीच पहचान सुनिश्चित करने के लिए एडवांटेज के औसत को घटाने की तकनीक।
रिप्रेजेंटेशन शेयरिंग
वह सिद्धांत जहाँ प्रारंभिक कन्वोल्यूशनल परतें साझा विशेषताओं को निकालती हैं जिनका उपयोग मूल्य और एडवांटेज एस्टिमेटर द्वारा किया जाता है।
गैर-उत्तल अनुकूलन
पुनर्बलन सीखने में गणितीय चुनौती जहाँ हानि की सतह में कई स्थानीय अधिष्ठान होते हैं, जो अभिसरण को कठिन बनाते हैं।
नमूनाकरण दक्षता
एक एल्गोरिथ्म की क्षमता जो सीमित अनुभवों के साथ कुशलता से सीखता है, जो मूल्य/एडवांटेज विघटन द्वारा बढ़ाई गई है।
ग्रेडिएंट प्रोपगेशन
वह तंत्र जिसके माध्यम से भविष्यवाणी त्रुटियों को नेटवर्क के माध्यम से वापस ले जाया जाता है ताकि V(s) और A(s,a) एस्टिमेटर को एक साथ समायोजित किया जा सके।