मॉडल-आधारित ऑफ़लाइन RL

📖

शब्द

ऑफ़लाइन रीइन्फोर्समेंट लर्निंग का एक दृष्टिकोण जो वास्तविक इंटरैक्शन के बिना नीति को बेहतर बनाने के लिए सिंथेटिक डेटा उत्पन्न करने के लिए पर्यावरण का एक गतिशील मॉडल सीखता है।

📖

शब्द

इमेजिनेशन रोलआउट्स

वास्तविक इंटरैक्शन के बिना संभावित भविष्य की स्थितियों का पता लगाने के लिए सीखे गए पर्यावरण मॉडल का उपयोग करके उत्पन्न सिम्युलेटेड ट्रैजेक्टरीज।

📖

शब्द

कंज़र्वेटिव पॉलिसी ऑप्टिमाइज़ेशन

एक एल्गोरिदम जो एक्सट्रपलेशन त्रुटियों से बचने के लिए प्रशिक्षण डेटा के व्यवहार से महत्वपूर्ण रूप से विचलित होने वाली नीतियों को स्पष्ट रूप से दंडित करता है।

📖

शब्द

अनिश्चितता मात्रात्मकीकरण

अन्वेषण का मार्गदर्शन करने और विनाशकारी त्रुटियों से बचने के लिए आउट-ऑफ-डिस्ट्रीब्यूशन क्षेत्रों में गतिशील मॉडल की अनिश्चितता का अनुमान लगाने की तकनीक।

📖

शब्द

एन्सेंबल मॉडल्स

भविष्यवाणियों के विचरण द्वारा एपिस्टेमिक अनिश्चितता का अनुमान लगाने के लिए विभिन्न इनिशियलाइज़ेशन के साथ प्रशिक्षित कई गतिशील मॉडलों का संग्रह।

📖

शब्द

ट्रैजेक्टरी ट्रांसफॉर्मर्स

ऑफ़लाइन लर्निंग में भविष्य के संक्रमणों की भविष्यवाणी करने के लिए राज्यों, कार्यों और पुरस्कारों के अनुक्रम के रूप में ट्रैजेक्टरी को मॉडल करने वाला ट्रांसफॉर्मर आर्किटेक्चर।

📖

शब्द

ऑफ़लाइन-टू-ऑनलाइन ट्रांसफर

वास्तविक इंटरैक्शन के साथ निरंतर परिष्करण और अनुकूलन के लिए ऑफ़लाइन सीखी गई नीति को ऑनलाइन वातावरण में स्थानांतरित करने की प्रक्रिया।

📖

शब्द

मॉडल एन्सेंबलिंग

राज्य संक्रमण पर विभिन्न परिकल्पनाओं को पकड़ने और भविष्यवाणियों की मजबूती में सुधार करने के लिए कई गतिशील मॉडलों का उपयोग करने वाली तकनीक।

📖

शब्द

एडवांटेज वेटेड रिग्रेशन

ऑफ़लाइन विधि जो प्रशिक्षण डेटा में कार्यों को उनके अनुमानित लाभ के अनुसार भारित करती है, ताकि केवल सरल क्लोनिंग से परे नीति में सुधार किया जा सके।

📖

शब्द

आउट-ऑफ-डिस्ट्रीब्यूशन डिटेक्शन

एक तंत्र जो पहचानता है कि मॉडल द्वारा उत्पन्न अवस्थाएँ मूल प्रशिक्षण डेटा के वितरण से कब महत्वपूर्ण रूप से विचलित होती हैं।

एआई शब्दावली