मॉडल-आधारित गहन प्रबलित सीख - कृत्रिम बुद्धिमत्ता शब्दावली

📖

शब्द

मॉडल-आधारित डीप रीइन्फोर्समेंट लर्निंग

रीइन्फोर्समेंट लर्निंग का एक दृष्टिकोण जहाँ एजेंट अपनी क्रियाओं को अनुकरण और योजना बनाने के लिए पर्यावरण का एक आंतरिक मॉडल बनाता है, जिससे वास्तविक पर्यावरण के साथ बातचीत की आवश्यकता कम हो जाती है।

📖

शब्द

वर्ल्ड मॉडल

पर्यावरण का एक पूर्ण तंत्रिका प्रतिनिधित्व जो एजेंट को एक अनुकरित स्थान में तर्क करने के लिए सिस्टम की गतिशीलता, अदृश्य स्थितियों और पुरस्कारों को एक साथ सीखता है।

📖

शब्द

मॉडल प्रेडिक्टिव कंट्रोल (MPC)

एक नियंत्रण रणनीति जो सीखे गए मॉडल का उपयोग एक सीमित समय क्षितिज पर भविष्य की क्रियाओं के अनुक्रम को अनुकूलित करने के लिए करती है, और प्रत्येक समय-चरण पर निरंतर इष्टतम योजना का पुनर्मूल्यांकन करती है।

📖

शब्द

डायना आर्किटेक्चर

एक ढांचा जो प्रत्यक्ष और अप्रत्यक्ष रीइन्फोर्समेंट लर्निंग को एकीकृत करता है, जहाँ मॉडल द्वारा उत्पन्न अनुकरित अनुभव वास्तविक डेटा को पूरक करते हैं ताकि सीखने को तेज़ किया जा सके।

📖

शब्द

इमैजिनेशन-ऑगमेंटेड एजेंट्स (I2A)

एक एजेंट आर्किटेक्चर जो मानक नीति को एक कल्पना पथ के साथ जोड़ती है, जो निर्णय लेने से पहले भविष्य के परिणामों की पूर्वानुमान लगाने के लिए पर्यावरण मॉडल का उपयोग करता है।

📖

शब्द

प्लैनेट (PlaNet)

एक एल्गोरिथ्म जो निरंतर नियंत्रण कार्यों को पूरी तरह से योजना बनाकर हल करने के लिए एक कॉम्पैक्ट अदृश्य स्थान में गतिशीलता का एक मॉडल सीखता है, बिना किसी स्पष्ट नीति के।

📖

शब्द

ड्रीमर (Dreamer)

एक एजेंट जो सपनों की दुनिया में एक दुनिया सीखता है जहाँ वह व्यवहार और मूल्यों को पूरी तरह से अदृश्य रूप से सीखने के लिए कल्पित पथों पर प्रशिक्षित होता है।

📖

शब्द

म्यूज़ीरो (MuZero)

एक क्रांतिकारी एल्गोरिथ्म जो पर्यावरण के नियमों की पूर्व जानकारी के बिना मॉडल, नीति और मूल्य को एक साथ सीखता है, जो MCTS और डीप लर्निंग को जोड़ता है।

📖

शब्द

Latent Space Dynamics

एक संकुचित प्रतिनिधित्व स्थान में अवस्थाओं के समय-विकास का मॉडलिंग, जहाँ गतिशीलता कच्चे अवलोकन स्थान की तुलना में अधिक सरल और स्थिर होती है।

📖

शब्द

Model Uncertainty

पर्यावरणीय मॉडल की अनिश्चितता का मात्रांकन, जो यह पहचानने के लिए महत्वपूर्ण है कि मॉडल किन क्षेत्रों में विश्वसनीय है और किन क्षेत्रों को अधिक अन्वेषण या वास्तविक इंटरैक्शन की आवश्यकता है।

📖

शब्द

Model Ensemble

एपिस्टेमिक अनिश्चितता का अनुमान लगाने और योजना बनाने के लिए भविष्यवाणियों की मजबूती बढ़ाने के लिए कई स्वतंत्र पर्यावरणीय मॉडलों का उपयोग करने वाली एक तकनीक।

📖

शब्द

Planning with Learned Models

एक अनुक्रमिक खोज प्रक्रिया जो सीखे गए मॉडल का उपयोग भविष्य की विभिन्न क्रिया अनुक्रमों का मूल्यांकन करने और इनाम की भविष्यवाणियों के अनुसार इष्टतम का चयन करने के लिए करती है।

📖

शब्द

Model-Based Value Expansion (MVE)

वास्तविक क्षितिज से परे रिटर्न का अनुमान लगाने के लिए मॉडल का उपयोग करने वाली एक तकनीक, जो दीर्घकालिक मूल्यों का अधिक सटीक अनुमान लगाने के लिए वास्तविक और अनुकरणित डेटा को जोड़ती है।

📖

शब्द

Model-Based Policy Optimization (MBPO)

एक हाइब्रिड एल्गोरिथ्म जो सिंथेटिक डेटा उत्पन्न करने के लिए लघु-परिसर के मॉडल का उपयोग करता है, जबकि नीति सीखने को स्थिर करने के लिए वास्तविक डेटा का एक सेट बनाए रखता है।

📖

शब्द

Trajectory Optimization

मॉडल के ग्रेडिएंट का उपयोग करके इष्टतम ट्रैजेक्टरीज़ खोजने के लिए अवस्था-क्रिया अनुक्रमों का प्रत्यक्ष अनुकूलन, विशेष रूप से निरंतर प्रणालियों के लिए प्रभावी।

📖

शब्द

Differentiable Physics Engines

अवकलनीय संक्रियाओं के साथ लागू भौतिक सिमुलेटर, जो मॉडल-आधारित सुदृढीकरण सीखने के लिए सिमुलेशन के माध्यम से ग्रेडिएंट के प्रसार की अनुमति देते हैं।

📖

शब्द

Forward Dynamics Model

Modèle prédictif apprenant la transition d'état s_{t+1} = f(s_t, a_t) pour anticiper les conséquences futures des actions dans l'environnement.

📖

शब्द

Inverse Dynamics Model

Modèle apprenant à inférer l'action a_t = f^{-1}(s_t, s_{t+1}) ayant conduit d'un état à un autre, utile pour l'apprentissage par imitation et la représentation des actions.

📖

शब्द

Model-Based Exploration

Stratégie d'exploration utilisant l'incertitude du modèle pour guider l'agent vers les états où le modèle est moins confiant, favorisant l'apprentissage d'une représentation plus complète.

एआई शब्दावली

मॉडल-आधारित डीप रीइन्फोर्समेंट लर्निंग

वर्ल्ड मॉडल

मॉडल प्रेडिक्टिव कंट्रोल (MPC)

डायना आर्किटेक्चर

इमैजिनेशन-ऑगमेंटेड एजेंट्स (I2A)

प्लैनेट (PlaNet)

ड्रीमर (Dreamer)

म्यूज़ीरो (MuZero)

Latent Space Dynamics

Model Uncertainty

Model Ensemble

Planning with Learned Models

Model-Based Value Expansion (MVE)

Model-Based Policy Optimization (MBPO)

Trajectory Optimization

Differentiable Physics Engines

Forward Dynamics Model

Inverse Dynamics Model

Model-Based Exploration

कोई परिणाम नहीं मिला