एआई शब्दावली
आर्टिफिशियल इंटेलिजेंस का पूर्ण शब्दकोश
मॉडल-आधारित डीप रीइन्फोर्समेंट लर्निंग
रीइन्फोर्समेंट लर्निंग का एक दृष्टिकोण जहाँ एजेंट अपनी क्रियाओं को अनुकरण और योजना बनाने के लिए पर्यावरण का एक आंतरिक मॉडल बनाता है, जिससे वास्तविक पर्यावरण के साथ बातचीत की आवश्यकता कम हो जाती है।
वर्ल्ड मॉडल
पर्यावरण का एक पूर्ण तंत्रिका प्रतिनिधित्व जो एजेंट को एक अनुकरित स्थान में तर्क करने के लिए सिस्टम की गतिशीलता, अदृश्य स्थितियों और पुरस्कारों को एक साथ सीखता है।
मॉडल प्रेडिक्टिव कंट्रोल (MPC)
एक नियंत्रण रणनीति जो सीखे गए मॉडल का उपयोग एक सीमित समय क्षितिज पर भविष्य की क्रियाओं के अनुक्रम को अनुकूलित करने के लिए करती है, और प्रत्येक समय-चरण पर निरंतर इष्टतम योजना का पुनर्मूल्यांकन करती है।
डायना आर्किटेक्चर
एक ढांचा जो प्रत्यक्ष और अप्रत्यक्ष रीइन्फोर्समेंट लर्निंग को एकीकृत करता है, जहाँ मॉडल द्वारा उत्पन्न अनुकरित अनुभव वास्तविक डेटा को पूरक करते हैं ताकि सीखने को तेज़ किया जा सके।
इमैजिनेशन-ऑगमेंटेड एजेंट्स (I2A)
एक एजेंट आर्किटेक्चर जो मानक नीति को एक कल्पना पथ के साथ जोड़ती है, जो निर्णय लेने से पहले भविष्य के परिणामों की पूर्वानुमान लगाने के लिए पर्यावरण मॉडल का उपयोग करता है।
प्लैनेट (PlaNet)
एक एल्गोरिथ्म जो निरंतर नियंत्रण कार्यों को पूरी तरह से योजना बनाकर हल करने के लिए एक कॉम्पैक्ट अदृश्य स्थान में गतिशीलता का एक मॉडल सीखता है, बिना किसी स्पष्ट नीति के।
ड्रीमर (Dreamer)
एक एजेंट जो सपनों की दुनिया में एक दुनिया सीखता है जहाँ वह व्यवहार और मूल्यों को पूरी तरह से अदृश्य रूप से सीखने के लिए कल्पित पथों पर प्रशिक्षित होता है।
म्यूज़ीरो (MuZero)
एक क्रांतिकारी एल्गोरिथ्म जो पर्यावरण के नियमों की पूर्व जानकारी के बिना मॉडल, नीति और मूल्य को एक साथ सीखता है, जो MCTS और डीप लर्निंग को जोड़ता है।
Latent Space Dynamics
एक संकुचित प्रतिनिधित्व स्थान में अवस्थाओं के समय-विकास का मॉडलिंग, जहाँ गतिशीलता कच्चे अवलोकन स्थान की तुलना में अधिक सरल और स्थिर होती है।
Model Uncertainty
पर्यावरणीय मॉडल की अनिश्चितता का मात्रांकन, जो यह पहचानने के लिए महत्वपूर्ण है कि मॉडल किन क्षेत्रों में विश्वसनीय है और किन क्षेत्रों को अधिक अन्वेषण या वास्तविक इंटरैक्शन की आवश्यकता है।
Model Ensemble
एपिस्टेमिक अनिश्चितता का अनुमान लगाने और योजना बनाने के लिए भविष्यवाणियों की मजबूती बढ़ाने के लिए कई स्वतंत्र पर्यावरणीय मॉडलों का उपयोग करने वाली एक तकनीक।
Planning with Learned Models
एक अनुक्रमिक खोज प्रक्रिया जो सीखे गए मॉडल का उपयोग भविष्य की विभिन्न क्रिया अनुक्रमों का मूल्यांकन करने और इनाम की भविष्यवाणियों के अनुसार इष्टतम का चयन करने के लिए करती है।
Model-Based Value Expansion (MVE)
वास्तविक क्षितिज से परे रिटर्न का अनुमान लगाने के लिए मॉडल का उपयोग करने वाली एक तकनीक, जो दीर्घकालिक मूल्यों का अधिक सटीक अनुमान लगाने के लिए वास्तविक और अनुकरणित डेटा को जोड़ती है।
Model-Based Policy Optimization (MBPO)
एक हाइब्रिड एल्गोरिथ्म जो सिंथेटिक डेटा उत्पन्न करने के लिए लघु-परिसर के मॉडल का उपयोग करता है, जबकि नीति सीखने को स्थिर करने के लिए वास्तविक डेटा का एक सेट बनाए रखता है।
Trajectory Optimization
मॉडल के ग्रेडिएंट का उपयोग करके इष्टतम ट्रैजेक्टरीज़ खोजने के लिए अवस्था-क्रिया अनुक्रमों का प्रत्यक्ष अनुकूलन, विशेष रूप से निरंतर प्रणालियों के लिए प्रभावी।
Differentiable Physics Engines
अवकलनीय संक्रियाओं के साथ लागू भौतिक सिमुलेटर, जो मॉडल-आधारित सुदृढीकरण सीखने के लिए सिमुलेशन के माध्यम से ग्रेडिएंट के प्रसार की अनुमति देते हैं।
Forward Dynamics Model
Modèle prédictif apprenant la transition d'état s_{t+1} = f(s_t, a_t) pour anticiper les conséquences futures des actions dans l'environnement.
Inverse Dynamics Model
Modèle apprenant à inférer l'action a_t = f^{-1}(s_t, s_{t+1}) ayant conduit d'un état à un autre, utile pour l'apprentissage par imitation et la représentation des actions.
Model-Based Exploration
Stratégie d'exploration utilisant l'incertitude du modèle pour guider l'agent vers les états où le modèle est moins confiant, favorisant l'apprentissage d'une représentation plus complète.