🏠 होम
बेंचमार्क
📊 सभी बेंचमार्क 🦖 डायनासोर v1 🦖 डायनासोर v2 ✅ टू-डू लिस्ट ऐप्स 🎨 रचनात्मक फ्री पेज 🎯 FSACB - अल्टीमेट शोकेस 🌍 अनुवाद बेंचमार्क
मॉडल
🏆 टॉप 10 मॉडल 🆓 मुफ्त मॉडल 📋 सभी मॉडल ⚙️ किलो कोड
संसाधन
💬 प्रॉम्प्ट लाइब्रेरी 📖 एआई शब्दावली 🔗 उपयोगी लिंक

एआई शब्दावली

आर्टिफिशियल इंटेलिजेंस का पूर्ण शब्दकोश

179
श्रेणियाँ
1,183
उप-श्रेणियाँ
14,904
शब्द
📖
शब्द

क्यू फंक्शन

एक विशिष्ट क्रिया की गुणवत्ता को मापने वाला फ़ंक्शन जो भविष्य के पुरस्कार के संदर्भ में एक निश्चित स्थिति में कार्य की गुणवत्ता को मात्रात्मक रूप देता है।

📖
शब्द

क्यू फंक्शन डिकम्पोज़िशन

क्यू(एस,ए) फ़ंक्शन को दो घटकों में अलग करने की तकनीक: स्थिति का मूल्य वी(एस) और लाभ ए(एस,ए) ताकि सीखने की दक्षता में सुधार हो सके।

📖
शब्द

लाभ

एक माप जो यह बताता है कि किसी दिए गए स्थिति में संभावित सभी क्रियाओं की तुलना में कोई क्रिया कितनी बेहतर है, जिसे ए(एस,ए) = क्यू(एस,ए) - वी(एस) के रूप में परिभाषित किया गया है।

📖
शब्द

ड्यूलिंग संरचना

तंत्रिका नेटवर्क की एक संरचना जिसमें दो अलग-अलग प्रवाह होते हैं: एक वी(एस) का अनुमान लगाने के लिए और दूसरा ए(एस,ए) का अनुमान लगाने के लिए, जिसे पुनः संयोजित करके क्यू(एस,ए) प्राप्त किया जाता है।

📖
शब्द

मूल्य आकलक

ड्यूलिंग संरचना का वह हिस्सा जो संभावित क्रियाओं से स्वतंत्र प्रत्येक स्थिति के आंतरिक मूल्य का अनुमान लगाता है।

📖
शब्द

लाभ आकलक

ड्यूलिंग नेटवर्क का घटक जो किसी स्थिति में सभी क्रियाओं के औसत मूल्य की तुलना में प्रत्येक क्रिया का सापेक्ष लाभ परिकलित करता है।

📖
शब्द

विचरण कमी

क्यू डिकम्पोज़िशन का मुख्य लाभ जहां मूल्य/लाभ अलगाव सीखने को स्थिर बनाने के लिए अनुमानों के विचरण को कम करता है।

📖
शब्द

सीखने की स्थिरता

सीखने की एक विशेषता जो प्रशिक्षण के दौरान अत्यधिक दोलन या विचलन के बिना विश्वसनीय रूप से अभिसरण करती है।

📖
शब्द

स्टेट-एक्शन

पुनर्बलन सीखने में मौलिक जोड़ियाँ जो विशिष्ट परिस्थिति और पर्यावरण में संबद्ध क्रिया चुनाव का प्रतिनिधित्व करती हैं।

📖
शब्द

एडवांटेज एग्रीगेशन

मूल्य और एडवांटेज एस्टिमेटर के आउटपुट को संयोजित करने वाला ऑपरेशन जो Q(s,a) = V(s) + A(s,a) पहचान का पालन करते हुए अंतिम Q फंक्शन को पुनर्निर्मित करता है।

📖
शब्द

एडवांटेज नॉर्मलाइजेशन

dueling संरचना में V(s) और A(s,a) के बीच पहचान सुनिश्चित करने के लिए एडवांटेज के औसत को घटाने की तकनीक।

📖
शब्द

रिप्रेजेंटेशन शेयरिंग

वह सिद्धांत जहाँ प्रारंभिक कन्वोल्यूशनल परतें साझा विशेषताओं को निकालती हैं जिनका उपयोग मूल्य और एडवांटेज एस्टिमेटर द्वारा किया जाता है।

📖
शब्द

गैर-उत्तल अनुकूलन

पुनर्बलन सीखने में गणितीय चुनौती जहाँ हानि की सतह में कई स्थानीय अधिष्ठान होते हैं, जो अभिसरण को कठिन बनाते हैं।

📖
शब्द

नमूनाकरण दक्षता

एक एल्गोरिथ्म की क्षमता जो सीमित अनुभवों के साथ कुशलता से सीखता है, जो मूल्य/एडवांटेज विघटन द्वारा बढ़ाई गई है।

📖
शब्द

ग्रेडिएंट प्रोपगेशन

वह तंत्र जिसके माध्यम से भविष्यवाणी त्रुटियों को नेटवर्क के माध्यम से वापस ले जाया जाता है ताकि V(s) और A(s,a) एस्टिमेटर को एक साथ समायोजित किया जा सके।

🔍

कोई परिणाम नहीं मिला