ऑफ़लाइन सुदृढीकरण सीखना - कृत्रिम बुद्धिमत्ता शब्दावली

📂

उप-श्रेणियाँ

Conservative Q-Learning (CQL)

एक विधि जो डेटा वितरण के निकट नीति बनाए रखने के लिए अधिमूल्यांकित Q मानों पर दंड लगाती है।

18 शब्द

📂

उप-श्रेणियाँ

बैच कंस्ट्रेंड क्यू-लर्निंग (BCQ)

एक ऐसा दृष्टिकोण जो डेटासेट में देखे गए कार्यों के करीब रहने के लिए कार्यों को बाधित करता है, ताकि वितरण शिफ्ट से बचा जा सके।

17 शब्द

📂

उप-श्रेणियाँ

डिसीजन ट्रांसफॉर्मर

ट्रांसफॉर्मर आर्किटेक्चर जो ऑफ़लाइन रीइन्फोर्समेंट लर्निंग को एक सीक्वेंस-टू-सीक्वेंस समस्या के रूप में संभालता है।

11 शब्द

📂

उप-श्रेणियाँ

इम्प्लिसिट क्यू-लर्निंग (आईक्यूएल)

एक ऐसी विधि जो स्पष्ट मैक्स ऑपरेटर की आवश्यकता के बिना क्यू फ़ंक्शन को अंतर्निहित रूप से सीखती है।

13 शब्द

📂

उप-श्रेणियाँ

मॉडल-आधारित ऑफ़लाइन RL

ऑफ-डिस्ट्रीब्यूशन सैंपलिंग को सुधारने के लिए सीखे गए पर्यावरण मॉडल का उपयोग करने वाला दृष्टिकोण।

10 शब्द

📂

उप-श्रेणियाँ

ऑफलाइन-टू-ऑनलाइन ट्रांसफर लर्निंग

ऑफलाइन सीख को ऑनलाइन सेटिंग्स में कुशलता से स्थानांतरित करने की तकनीकें।

6 शब्द

📂

उप-श्रेणियाँ

वितरणीय ऑफ़लाइन RL

ऐसी विधियाँ जो रिटर्न की पूरी वितरण को मॉडल करती हैं, न कि केवल उनकी गणितीय अपेक्षा को।

13 शब्द

📂

उप-श्रेणियाँ

सुरक्षित ऑफ़लाइन रीइन्फोर्समेंट लर्निंग

स्थिर डेटा पर सीखी गई नीतियों को तैनात करते समय सुरक्षा सुनिश्चित करने वाले दृष्टिकोण।

11 शब्द

📂

उप-श्रेणियाँ

अनिश्चितता-जागरूक ऑफ़लाइन आरएल

वितरण से बाहर की कार्रवाइयों से बचने के लिए एपिस्टेमिक अनिश्चितता को मापने वाली विधियाँ।

17 शब्द

📂

उप-श्रेणियाँ

ट्रैजेक्टरी ट्रांसफॉर्मर

एक ट्रांसफॉर्मर मॉडल जो स्टेट-एक्शन-रिवार्ड अनुक्रमों के वितरण को सीखकर पूर्ण प्रक्षेपवक्र उत्पन्न करता है।

6 शब्द

📂

उप-श्रेणियाँ

एडवांटेज-वेटेड रिग्रेशन (एडब्ल्यूआर)

वितरण से बाहर कार्रवाई चयन में सुधार के लिए लाभ के अनुसार प्रतिगमन को भारित करने वाला दृष्टिकोण।

11 शब्द

📂

उप-श्रेणियाँ

ऑफलाइन मल्टी-टास्क रीइन्फोर्समेंट लर्निंग

साझा बैच डेटासेट से एक साथ कई कार्यों को सीखने का प्रतिमान।

18 शब्द

एआई शब्दावली

Conservative Q-Learning (CQL)

बैच कंस्ट्रेंड क्यू-लर्निंग (BCQ)

डिसीजन ट्रांसफॉर्मर

इम्प्लिसिट क्यू-लर्निंग (आईक्यूएल)

मॉडल-आधारित ऑफ़लाइन RL

ऑफलाइन-टू-ऑनलाइन ट्रांसफर लर्निंग

वितरणीय ऑफ़लाइन RL

सुरक्षित ऑफ़लाइन रीइन्फोर्समेंट लर्निंग

अनिश्चितता-जागरूक ऑफ़लाइन आरएल

ट्रैजेक्टरी ट्रांसफॉर्मर

एडवांटेज-वेटेड रिग्रेशन (एडब्ल्यूआर)

ऑफलाइन मल्टी-टास्क रीइन्फोर्समेंट लर्निंग

कोई परिणाम नहीं मिला