एआई शब्दावली
आर्टिफिशियल इंटेलिजेंस का पूर्ण शब्दकोश
Conservative Q-Learning (CQL)
एक विधि जो डेटा वितरण के निकट नीति बनाए रखने के लिए अधिमूल्यांकित Q मानों पर दंड लगाती है।
बैच कंस्ट्रेंड क्यू-लर्निंग (BCQ)
एक ऐसा दृष्टिकोण जो डेटासेट में देखे गए कार्यों के करीब रहने के लिए कार्यों को बाधित करता है, ताकि वितरण शिफ्ट से बचा जा सके।
डिसीजन ट्रांसफॉर्मर
ट्रांसफॉर्मर आर्किटेक्चर जो ऑफ़लाइन रीइन्फोर्समेंट लर्निंग को एक सीक्वेंस-टू-सीक्वेंस समस्या के रूप में संभालता है।
इम्प्लिसिट क्यू-लर्निंग (आईक्यूएल)
एक ऐसी विधि जो स्पष्ट मैक्स ऑपरेटर की आवश्यकता के बिना क्यू फ़ंक्शन को अंतर्निहित रूप से सीखती है।
मॉडल-आधारित ऑफ़लाइन RL
ऑफ-डिस्ट्रीब्यूशन सैंपलिंग को सुधारने के लिए सीखे गए पर्यावरण मॉडल का उपयोग करने वाला दृष्टिकोण।
ऑफलाइन-टू-ऑनलाइन ट्रांसफर लर्निंग
ऑफलाइन सीख को ऑनलाइन सेटिंग्स में कुशलता से स्थानांतरित करने की तकनीकें।
वितरणीय ऑफ़लाइन RL
ऐसी विधियाँ जो रिटर्न की पूरी वितरण को मॉडल करती हैं, न कि केवल उनकी गणितीय अपेक्षा को।
सुरक्षित ऑफ़लाइन रीइन्फोर्समेंट लर्निंग
स्थिर डेटा पर सीखी गई नीतियों को तैनात करते समय सुरक्षा सुनिश्चित करने वाले दृष्टिकोण।
अनिश्चितता-जागरूक ऑफ़लाइन आरएल
वितरण से बाहर की कार्रवाइयों से बचने के लिए एपिस्टेमिक अनिश्चितता को मापने वाली विधियाँ।
ट्रैजेक्टरी ट्रांसफॉर्मर
एक ट्रांसफॉर्मर मॉडल जो स्टेट-एक्शन-रिवार्ड अनुक्रमों के वितरण को सीखकर पूर्ण प्रक्षेपवक्र उत्पन्न करता है।
एडवांटेज-वेटेड रिग्रेशन (एडब्ल्यूआर)
वितरण से बाहर कार्रवाई चयन में सुधार के लिए लाभ के अनुसार प्रतिगमन को भारित करने वाला दृष्टिकोण।
ऑफलाइन मल्टी-टास्क रीइन्फोर्समेंट लर्निंग
साझा बैच डेटासेट से एक साथ कई कार्यों को सीखने का प्रतिमान।