🏠 होम
बेंचमार्क
📊 सभी बेंचमार्क 🦖 डायनासोर v1 🦖 डायनासोर v2 ✅ टू-डू लिस्ट ऐप्स 🎨 रचनात्मक फ्री पेज 🎯 FSACB - अल्टीमेट शोकेस 🌍 अनुवाद बेंचमार्क
मॉडल
🏆 टॉप 10 मॉडल 🆓 मुफ्त मॉडल 📋 सभी मॉडल ⚙️ किलो कोड
संसाधन
💬 प्रॉम्प्ट लाइब्रेरी 📖 एआई शब्दावली 🔗 उपयोगी लिंक

एआई शब्दावली

आर्टिफिशियल इंटेलिजेंस का पूर्ण शब्दकोश

179
श्रेणियाँ
1,183
उप-श्रेणियाँ
14,904
शब्द
📖
शब्द

मॉडल-आधारित डीप रीइन्फोर्समेंट लर्निंग

रीइन्फोर्समेंट लर्निंग का एक दृष्टिकोण जहाँ एजेंट अपनी क्रियाओं को अनुकरण और योजना बनाने के लिए पर्यावरण का एक आंतरिक मॉडल बनाता है, जिससे वास्तविक पर्यावरण के साथ बातचीत की आवश्यकता कम हो जाती है।

📖
शब्द

वर्ल्ड मॉडल

पर्यावरण का एक पूर्ण तंत्रिका प्रतिनिधित्व जो एजेंट को एक अनुकरित स्थान में तर्क करने के लिए सिस्टम की गतिशीलता, अदृश्य स्थितियों और पुरस्कारों को एक साथ सीखता है।

📖
शब्द

मॉडल प्रेडिक्टिव कंट्रोल (MPC)

एक नियंत्रण रणनीति जो सीखे गए मॉडल का उपयोग एक सीमित समय क्षितिज पर भविष्य की क्रियाओं के अनुक्रम को अनुकूलित करने के लिए करती है, और प्रत्येक समय-चरण पर निरंतर इष्टतम योजना का पुनर्मूल्यांकन करती है।

📖
शब्द

डायना आर्किटेक्चर

एक ढांचा जो प्रत्यक्ष और अप्रत्यक्ष रीइन्फोर्समेंट लर्निंग को एकीकृत करता है, जहाँ मॉडल द्वारा उत्पन्न अनुकरित अनुभव वास्तविक डेटा को पूरक करते हैं ताकि सीखने को तेज़ किया जा सके।

📖
शब्द

इमैजिनेशन-ऑगमेंटेड एजेंट्स (I2A)

एक एजेंट आर्किटेक्चर जो मानक नीति को एक कल्पना पथ के साथ जोड़ती है, जो निर्णय लेने से पहले भविष्य के परिणामों की पूर्वानुमान लगाने के लिए पर्यावरण मॉडल का उपयोग करता है।

📖
शब्द

प्लैनेट (PlaNet)

एक एल्गोरिथ्म जो निरंतर नियंत्रण कार्यों को पूरी तरह से योजना बनाकर हल करने के लिए एक कॉम्पैक्ट अदृश्य स्थान में गतिशीलता का एक मॉडल सीखता है, बिना किसी स्पष्ट नीति के।

📖
शब्द

ड्रीमर (Dreamer)

एक एजेंट जो सपनों की दुनिया में एक दुनिया सीखता है जहाँ वह व्यवहार और मूल्यों को पूरी तरह से अदृश्य रूप से सीखने के लिए कल्पित पथों पर प्रशिक्षित होता है।

📖
शब्द

म्यूज़ीरो (MuZero)

एक क्रांतिकारी एल्गोरिथ्म जो पर्यावरण के नियमों की पूर्व जानकारी के बिना मॉडल, नीति और मूल्य को एक साथ सीखता है, जो MCTS और डीप लर्निंग को जोड़ता है।

📖
शब्द

Latent Space Dynamics

एक संकुचित प्रतिनिधित्व स्थान में अवस्थाओं के समय-विकास का मॉडलिंग, जहाँ गतिशीलता कच्चे अवलोकन स्थान की तुलना में अधिक सरल और स्थिर होती है।

📖
शब्द

Model Uncertainty

पर्यावरणीय मॉडल की अनिश्चितता का मात्रांकन, जो यह पहचानने के लिए महत्वपूर्ण है कि मॉडल किन क्षेत्रों में विश्वसनीय है और किन क्षेत्रों को अधिक अन्वेषण या वास्तविक इंटरैक्शन की आवश्यकता है।

📖
शब्द

Model Ensemble

एपिस्टेमिक अनिश्चितता का अनुमान लगाने और योजना बनाने के लिए भविष्यवाणियों की मजबूती बढ़ाने के लिए कई स्वतंत्र पर्यावरणीय मॉडलों का उपयोग करने वाली एक तकनीक।

📖
शब्द

Planning with Learned Models

एक अनुक्रमिक खोज प्रक्रिया जो सीखे गए मॉडल का उपयोग भविष्य की विभिन्न क्रिया अनुक्रमों का मूल्यांकन करने और इनाम की भविष्यवाणियों के अनुसार इष्टतम का चयन करने के लिए करती है।

📖
शब्द

Model-Based Value Expansion (MVE)

वास्तविक क्षितिज से परे रिटर्न का अनुमान लगाने के लिए मॉडल का उपयोग करने वाली एक तकनीक, जो दीर्घकालिक मूल्यों का अधिक सटीक अनुमान लगाने के लिए वास्तविक और अनुकरणित डेटा को जोड़ती है।

📖
शब्द

Model-Based Policy Optimization (MBPO)

एक हाइब्रिड एल्गोरिथ्म जो सिंथेटिक डेटा उत्पन्न करने के लिए लघु-परिसर के मॉडल का उपयोग करता है, जबकि नीति सीखने को स्थिर करने के लिए वास्तविक डेटा का एक सेट बनाए रखता है।

📖
शब्द

Trajectory Optimization

मॉडल के ग्रेडिएंट का उपयोग करके इष्टतम ट्रैजेक्टरीज़ खोजने के लिए अवस्था-क्रिया अनुक्रमों का प्रत्यक्ष अनुकूलन, विशेष रूप से निरंतर प्रणालियों के लिए प्रभावी।

📖
शब्द

Differentiable Physics Engines

अवकलनीय संक्रियाओं के साथ लागू भौतिक सिमुलेटर, जो मॉडल-आधारित सुदृढीकरण सीखने के लिए सिमुलेशन के माध्यम से ग्रेडिएंट के प्रसार की अनुमति देते हैं।

📖
शब्द

Forward Dynamics Model

Modèle prédictif apprenant la transition d'état s_{t+1} = f(s_t, a_t) pour anticiper les conséquences futures des actions dans l'environnement.

📖
शब्द

Inverse Dynamics Model

Modèle apprenant à inférer l'action a_t = f^{-1}(s_t, s_{t+1}) ayant conduit d'un état à un autre, utile pour l'apprentissage par imitation et la représentation des actions.

📖
शब्द

Model-Based Exploration

Stratégie d'exploration utilisant l'incertitude du modèle pour guider l'agent vers les états où le modèle est moins confiant, favorisant l'apprentissage d'une représentation plus complète.

🔍

कोई परिणाम नहीं मिला