🏠 होम
बेंचमार्क
📊 सभी बेंचमार्क 🦖 डायनासोर v1 🦖 डायनासोर v2 ✅ टू-डू लिस्ट ऐप्स 🎨 रचनात्मक फ्री पेज 🎯 FSACB - अल्टीमेट शोकेस 🌍 अनुवाद बेंचमार्क
मॉडल
🏆 टॉप 10 मॉडल 🆓 मुफ्त मॉडल 📋 सभी मॉडल ⚙️ किलो कोड
संसाधन
💬 प्रॉम्प्ट लाइब्रेरी 📖 एआई शब्दावली 🔗 उपयोगी लिंक

एआई शब्दावली

आर्टिफिशियल इंटेलिजेंस का पूर्ण शब्दकोश

179
श्रेणियाँ
1,183
उप-श्रेणियाँ
14,904
शब्द
📖
शब्द

नीति निर्णय

रणनीति या मानचित्रण जो संभावित प्रत्येक स्थिति में किए जाने वाले कार्य को परिभाषित करता है, सुदृढीकरण सीखने की प्रक्रिया में एजेंट के व्यवहार का प्रतिनिधित्व करता है।

📖
शब्द

बहु-सशस्त्र डाकू समस्या

अनुक्रमिक अनुकूलन समस्या जहां एक एजेंट को समय के साथ संचयी पुरस्कार को अधिकतम करने के लिए अज्ञात पुरस्कारों वाले कई विकल्पों में से चयन करना होता है।

📖
शब्द

संचयी पुरस्कार

भविष्य के अपेक्षित पुरस्कारों का योग जिसे एजेंट अधिकतम करना चाहता है, अक्सर दूर के पुरस्कारों को कम महत्व देने के लिए छूट कारक के साथ गणना की जाती है।

📖
शब्द

SARSA एल्गोरिदम

अन-नीति सुदृढीकरण सीखने का एल्गोरिदम जो स्टेट-एक्शन-रिवार्ड-स्टेट-एक्शन अनुक्रम के आधार पर Q मानों को अद्यतन करता है, Q-लर्निंग के विपरीत।

📖
शब्द

डीप Q-नेटवर्क

गहरे तंत्रिका नेटवर्क आर्किटेक्चर जिसका उपयोग जटिल राज्य स्थानों में Q फ़ंक्शन का अनुमान लगाने के लिए किया जाता है, गहरी सीख और Q-लर्निंग को जोड़ता है।

📖
शब्द

गहन सुदृढीकरण सीखना

उच्च-आयामी राज्य या क्रिया स्थानों को संभालने के लिए सुदृढीकरण सीखने में गहरे तंत्रिका नेटवर्क को एकीकृत करने वाला दृष्टिकोण।

📖
शब्द

एप्सिलॉन-लोभी नीति

क्रिया चयन रणनीति जहां संभावना ε के साथ एजेंट अन्वेषण करता है (यादृच्छिक क्रिया चुनता है) और संभावना 1-ε के साथ दोहन करता है (सर्वोत्तम ज्ञात क्रिया चुनता है)।

📖
शब्द

नीति अनुकूलन

सुदृढीकरण सीखने में विधियों का वर्ग जो मूल्य फ़ंक्शन के बिना सीधे नीति को अनुकूलित करता है, अक्सर नीति ग्रेडिएंट तकनीकों का उपयोग करता है।

📖
शब्द

पॉलिसी ग्रेडिएंट एल्गोरिदम

एक अनुकूलन विधि जो सीधे पॉलिसी के पैरामीटर्स को उन पैरामीटर्स के संबंध में अपेक्षित पुरस्कार के ग्रेडिएंट का पालन करके समायोजित करती है।

📖
शब्द

मल्टी-एजेंट रीइन्फोर्समेंट लर्निंग

रीइन्फोर्समेंट लर्निंग का विस्तार जहां कई एजेंट एक साझा वातावरण में एक साथ सीखते हैं, अक्सर प्रतिस्पर्धा या सहयोग में।

📖
शब्द

अनुभव पुनर्प्राप्ति मेमोरी

डेटा संरचना जो प्रशिक्षण के दौरान पुनः नमूने के लिए संक्रमण (स्थिति, कार्रवाई, पुरस्कार, अगली स्थिति) संग्रहीत करती है, डेटा उपयोग दक्षता में सुधार करती है।

📖
शब्द

एक्टर-क्रिटिक एल्गोरिदम

एक आर्किटेक्चर जो एक एक्टर जो पॉलिसी के अनुसार कार्रवाइयों का चयन करता है और एक क्रिटिक जो उन कार्रवाइयों का मूल्यांकन करता है, को जोड़ता है, जिससे अधिक स्थिर और कुशल सीखने की अनुमति मिलती है।

🔍

कोई परिणाम नहीं मिला