एआई शब्दावली
आर्टिफिशियल इंटेलिजेंस का पूर्ण शब्दकोश
मॉडल-आधारित ऑफ़लाइन RL
ऑफ़लाइन रीइन्फोर्समेंट लर्निंग का एक दृष्टिकोण जो वास्तविक इंटरैक्शन के बिना नीति को बेहतर बनाने के लिए सिंथेटिक डेटा उत्पन्न करने के लिए पर्यावरण का एक गतिशील मॉडल सीखता है।
इमेजिनेशन रोलआउट्स
वास्तविक इंटरैक्शन के बिना संभावित भविष्य की स्थितियों का पता लगाने के लिए सीखे गए पर्यावरण मॉडल का उपयोग करके उत्पन्न सिम्युलेटेड ट्रैजेक्टरीज।
कंज़र्वेटिव पॉलिसी ऑप्टिमाइज़ेशन
एक एल्गोरिदम जो एक्सट्रपलेशन त्रुटियों से बचने के लिए प्रशिक्षण डेटा के व्यवहार से महत्वपूर्ण रूप से विचलित होने वाली नीतियों को स्पष्ट रूप से दंडित करता है।
अनिश्चितता मात्रात्मकीकरण
अन्वेषण का मार्गदर्शन करने और विनाशकारी त्रुटियों से बचने के लिए आउट-ऑफ-डिस्ट्रीब्यूशन क्षेत्रों में गतिशील मॉडल की अनिश्चितता का अनुमान लगाने की तकनीक।
एन्सेंबल मॉडल्स
भविष्यवाणियों के विचरण द्वारा एपिस्टेमिक अनिश्चितता का अनुमान लगाने के लिए विभिन्न इनिशियलाइज़ेशन के साथ प्रशिक्षित कई गतिशील मॉडलों का संग्रह।
ट्रैजेक्टरी ट्रांसफॉर्मर्स
ऑफ़लाइन लर्निंग में भविष्य के संक्रमणों की भविष्यवाणी करने के लिए राज्यों, कार्यों और पुरस्कारों के अनुक्रम के रूप में ट्रैजेक्टरी को मॉडल करने वाला ट्रांसफॉर्मर आर्किटेक्चर।
ऑफ़लाइन-टू-ऑनलाइन ट्रांसफर
वास्तविक इंटरैक्शन के साथ निरंतर परिष्करण और अनुकूलन के लिए ऑफ़लाइन सीखी गई नीति को ऑनलाइन वातावरण में स्थानांतरित करने की प्रक्रिया।
मॉडल एन्सेंबलिंग
राज्य संक्रमण पर विभिन्न परिकल्पनाओं को पकड़ने और भविष्यवाणियों की मजबूती में सुधार करने के लिए कई गतिशील मॉडलों का उपयोग करने वाली तकनीक।
एडवांटेज वेटेड रिग्रेशन
ऑफ़लाइन विधि जो प्रशिक्षण डेटा में कार्यों को उनके अनुमानित लाभ के अनुसार भारित करती है, ताकि केवल सरल क्लोनिंग से परे नीति में सुधार किया जा सके।
आउट-ऑफ-डिस्ट्रीब्यूशन डिटेक्शन
एक तंत्र जो पहचानता है कि मॉडल द्वारा उत्पन्न अवस्थाएँ मूल प्रशिक्षण डेटा के वितरण से कब महत्वपूर्ण रूप से विचलित होती हैं।