🏠 होम
बेंचमार्क
📊 सभी बेंचमार्क 🦖 डायनासोर v1 🦖 डायनासोर v2 ✅ टू-डू लिस्ट ऐप्स 🎨 रचनात्मक फ्री पेज 🎯 FSACB - अल्टीमेट शोकेस 🌍 अनुवाद बेंचमार्क
मॉडल
🏆 टॉप 10 मॉडल 🆓 मुफ्त मॉडल 📋 सभी मॉडल ⚙️ किलो कोड
संसाधन
💬 प्रॉम्प्ट लाइब्रेरी 📖 एआई शब्दावली 🔗 उपयोगी लिंक

एआई शब्दावली

आर्टिफिशियल इंटेलिजेंस का पूर्ण शब्दकोश

179
श्रेणियाँ
1,183
उप-श्रेणियाँ
14,904
शब्द
📖
शब्द

MuZero

एक प्रबलित शिक्षण एल्गोरिथ्म जो वातावरण की गतिशीलता का कोई पूर्व ज्ञान के बिना एक साथ संक्रमण, पुरस्कार और मूल्य मॉडल सीखता है।

📖
शब्द

मूल्य मॉडल

MuZero में एक तंत्रिका नेटवर्क जो भविष्य के अवस्थाओं के अपेक्षित मूल्य का अनुमान लगाता है, योजना प्रक्रिया को सबसे अधिक आशाजनक क्रियाओं की ओर मार्गदर्शन करता है।

📖
शब्द

MCTS (मॉन्टे कार्लो ट्री सर्च)

MuZero में उपयोग किया जाने वाला एक वृक्ष खोज एल्गोरिथ्म जो सिमुलेशन में शोषण और अन्वेषण को संतुलित करके भविष्य की क्रियाओं के स्थान का प्रभावी ढंग से अन्वेषण करता है।

📖
शब्द

योजना बनाना

वह प्रक्रिया जिसके द्वारा MuZero अपने सीखे हुए मॉडल का उपयोग करके विभिन्न क्रिया अनुक्रमों का अनुकरण और मूल्यांकन करता है, बेहतरीन क्रिया को निष्पादित करने के लिए चुनने से पहले।

📖
शब्द

अल्फाज़ीरो

MuZero का पूर्ववर्ती एल्गोरिथ्म जिसे खेल के नियमों की जानकारी की आवश्यकता थी, MuZero के विपरीत जो गतिशील रूप से वातावरण का मॉडल सीखता है।

📖
शब्द

स्व-खेल

प्रशिक्षण की एक विधि जहाँ MuZero सीखने के डेटा उत्पन्न करने के लिए अपने आप के खिलाफ खेलता है, जिससे मानव हस्तक्षेप के बिना निरंतर सुधार होता है।

📖
शब्द

रीप्ले बफर

एक डेटा संरचना जो अतीत के अनुभवों को संग्रहीत करती है जिसे MuZero अपने नेटवर्क को प्रभावी और स्थिर तरीके से प्रशिक्षित करने के लिए पुनः उपयोग करता है।

📖
शब्द

योजना में सामान्यीकरण

MuZero की क्षमता जो उसे अपने सीखे हुए मॉडल को प्रशिक्षण के दौरान न देखे गए नई स्थितियों पर लागू करने की अनुमति देती है, जिससे एक उल्लेखनीय मजबूती का प्रदर्शन होता है।

📖
शब्द

मूल्य नेटवर्क

एक तंत्रिका नेटवर्क जो किसी दिए गए स्थिति की गुणवत्ता का मूल्यांकन करता है, इस स्थिति से अपेक्षित भविष्य के पुरस्कारों के योग की भविष्यवाणी करके।

📖
शब्द

नीति नेटवर्क

MuZero का एक घटक जो संभावित क्रियाओं पर संभाव्यता वितरण का सुझाव देता है, जिससे MCTS खोज के दौरान अन्वेषण का मार्गदर्शन किया जाता है।

📖
शब्द

बूटस्ट्रैप

एक तकनीक जहां MuZero स्वयं की भविष्यवाणियों का उपयोग बार-बार सुधार के लिए करता है, बाहरी पर्यवेक्षण के बिना आत्म-सुधार का एक चक्र बनाता है।

📖
शब्द

कल्पना अधिगम

वह प्रक्रिया जिसके द्वारा MuZero वास्तविक अंतःक्रियाओं के बजाय आंतरिक सिमुलेशन से सीखता है, जिससे यह स्थिति स्थान का कुशलतापूर्वक अन्वेषण कर सकता है।

📖
शब्द

खोज नीति

MuZero द्वारा उपयोग की जाने वाली रणनीति जो MCTS खोज के दौरान किन क्रियाओं का अन्वेषण करना है यह चुनने के लिए, अन्वेषण-शोषण ट्रेड-ऑफ को अनुकूलित करती है।

🔍

कोई परिणाम नहीं मिला