एआई शब्दावली
आर्टिफिशियल इंटेलिजेंस का पूर्ण शब्दकोश
बहु-चरण ट्रैजेक्टरी भविष्यवाणी
वास्तविक निष्पादन से पहले एक कार्रवाई के दीर्घकालिक परिणामों का मूल्यांकन करने के लिए कई समय चरणों पर भविष्य की स्थितियों की एक निरंतर अनुक्रम की पूर्वानुमान लगाने की तकनीक।
मोंटे कार्लो खोज ट्री
एक दिए गए स्थिति से संभावित भविष्य की ट्रैजेक्टरी का मूल्यांकन करने के लिए यादृच्छिक सिमुलेशन का उपयोग करके कार्यों के चयन को अनुकूलित करने के लिए वृक्षाकार एक्सप्लोरेशन एल्गोरिथ्म।
पूर्वानुमान द्वारा योजना बनाना
वास्तविक वातावरण के साथ किसी भी इंटरैक्शन से पहले इष्टतम नीति का चयन करने के लिए सीखे गए मॉडल का उपयोग करके भविष्य के कार्यों का क्रमिक मूल्यांकन।
पर्यावरणीय गतिशीलता मॉडल
एजेंट के कार्यों के परिणामों की सटीक भविष्यवाणी करने के लिए पर्यावरण के भौतिक नियमों और स्थिति परिवर्तनों को कैप्चर करने के लिए प्रशिक्षित तंत्रिका नेटवर्क।
मॉडल कल्पना
भौतिक इंटरैक्शन के बिना अपने आंतरिक पर्यावरण मॉडल का उपयोग करके मानसिक रूप से वैकल्पिक परिदृश्य और ट्रैजेक्टरी उत्पन्न करने की क्षमता।
पूर्वानुमान रोलआउट
अपेक्षित संचयी पुरस्कार का मूल्यांकन करने के लिए सीखे गए मॉडल का उपयोग करके एक प्रारंभिक स्थिति से कार्यों के अनुक्रम का पूर्ण सिमुलेशन।
आभासी परीक्षण द्वारा सीखना
एक पैराडाइम जहां एजेंट मुख्य रूप से वातावरण के साथ प्रत्यक्ष इंटरैक्शन के बजाय अपने आंतरिक मॉडल में सिमुलेटेड अनुभवों के माध्यम से बेहतर होता है।
ट्रैजेक्टरीज का जनरेटिव मॉडल
पर्यावरण के स्टोकैस्टिक स्वभाव को कैप्चर करते हुए एक निर्धारक भविष्यवाणी के बजाय संभावित ट्रैजेक्टरी के वितरण उत्पन्न करने वाली डीप लर्निंग आर्किटेक्चर।
सिमुलेशन द्वारा अन्वेषण
एक अन्वेषण रणनीति जहां एजेंट वास्तव में सबसे अधिक आशाजनक नीतियों का परीक्षण करने से पहले अपने मॉडल में परिदृश्यों का व्यापक रूप से अनुकरण करके नई नीतियों की खोज करता है।
स्थिति-क्रिया भविष्यवाणी
वर्तमान स्थिति s(t) और क्रिया a(t) के आधार पर अगली स्थिति s(t+1) की सीधे भविष्यवाणी करने वाला मॉडल, जो मौलिक संक्रमण समीकरण बनाता है।
काल्पनिक अनुभव बफर
प्रशिक्षण के लिए मॉडल द्वारा उत्पन्न अनुकरणित पथ भंडारित करने वाली डेटा संरचना, जो पर्यावरण में एकत्रित वास्तविक अनुभव को पूरा करती है।
वैश्विक मॉडल सीखना
एक दृष्टिकोण जहां एक एकल मॉडल पर्यावरण की पूर्ण गतिशीलता सीखता है, जो बेहतर सामान्यीकरण के लिए सभी कार्यों और नीतियों के बीच साझा किया जाता है।
पथ भविष्यवाणी नेटवर्क
भविष्य की स्थितियों के अनुक्रमों की भविष्यवाणी में विशेषज्ञता वाली तंत्रिका आर्किटेक्चर, जो अक्सर समय निर्भरताओं को पकड़ने के लिए RNN या ट्रांसफॉर्मर पर आधारित होती है।
मॉडल सत्यापन
सिमुलेटेड पथों की विश्वसनीयता सुनिश्चित करने के लिए होल्ड-आउट डेटा पर मॉडल की भविष्यवाणी सटीकता का मूल्यांकन करने की एक प्रणालीगत प्रक्रिया।
काउंटरफैक्चुअल उत्पादन
विभिन्न निर्णयों के प्रभाव को समझने और मॉडल की कारणात्मक समझ को बेहतर बनाने के लिए वैकल्पिक काल्पनिक पथ बनाने की तकनीक।