एआई शब्दावली
आर्टिफिशियल इंटेलिजेंस का पूर्ण शब्दकोश
वितरणात्मक क्यू-लर्निंग
क्यू-लर्निंग का एक प्रकार जो केवल गणितीय अपेक्षा का अनुमान लगाने के बजाय क्यू-मूल्यों के पूर्ण संभाव्यता वितरण को सीखता है, जो अनिश्चितता की बेहतर विशेषता सक्षम करता है।
श्रेणीबद्ध वितरणात्मक आरएल
एक विधि जो रिटर्न के वितरण को पूर्वनिर्धारित मूल्य परमाणुओं पर असतत संभावनाओं के सेट के रूप में दर्शाती है, स्थिरता सुनिश्चित करने के लिए श्रेणीबद्ध प्रक्षेपण का उपयोग करती है।
क्वांटाइल रिग्रेशन आरएल
क्वांटाइल रिग्रेशन का उपयोग करने वाला वितरणात्मक दृष्टिकोण जो रिटर्न के वितरण के क्वांटाइल को सीधे मॉडल करता है, एक लचीली और निरंतर प्रतिनिधित्व प्रदान करता है।
अंतर्निहित क्वांटाइल नेटवर्क (आईक्यूएन)
एक तंत्रिका नेटवर्क आर्किटेक्चर जो क्वांटाइल एम्बेडिंग फ़ंक्शंस के माध्यम से अंतर्निहित क्वांटाइल उत्पन्न करके रिटर्न के संचयी वितरण को सीखता है, जो निरंतर अनुमान सक्षम करता है।
वितरणात्मक बेलमैन ऑपरेटर
शास्त्रीय बेलमैन ऑपरेटर का सामान्यीकरण जो अदिश मूल्यों के बजाय रिटर्न के वितरण पर कार्य करता है, पूर्ण वितरण संरचना को संरक्षित करता है।
बैच कंस्ट्रेंट वितरणात्मक आरएल
ऑफ़लाइन दृष्टिकोण जो यह सुनिश्चित करने के लिए वितरणात्मक विधियों पर बैच बाधाएँ लागू करता है कि नीतियाँ प्रशिक्षण डेटासेट में देखे गए व्यवहार के करीब रहें।
ऑफ़लाइन वितरणात्मक क्रिटिक
ऑफ़लाइन सीखने में क्रिटिक मॉड्यूल जो वितरण बदलाव और चयन पूर्वाग्रह को संभालने के लिए तकनीकों का उपयोग करके कार्यों का मूल्यांकन करने के लिए रिटर्न के वितरण का अनुमान लगाता है।
वितरणात्मक पॉलिसी ग्रेडिएंट
पॉलिसी ग्रेडिएंट विधियों का विस्तार जो केवल उनकी अपेक्षा के बजाय रिटर्न के वितरण मापदंडों को सीधे अनुकूलित करता है, जो जोखिम गुणों पर ठीक नियंत्रण सक्षम करता है।
जोखिम-जागरूक वितरणात्मक RL
ऑफ़लाइन दृष्टिकोण जो जोखिम के प्रति सचेत निर्णय लेने के लिए रिटर्न के पूर्ण वितरण का उपयोग करता है, CVaR या सुसंगत जोखिम माप जैसे मैट्रिक्स के अनुसार अनुकूलन करता है।
वितरणात्मक गतिशीलता मॉडल
डेटा-आधारित मॉडल जो न केवल पर्यावरण की औसत गतिशीलता को पकड़ता है बल्कि संक्रमण और पुरस्कारों के वितरण को भी पकड़ता है, जो मजबूत ऑफ़लाइन सीखने के लिए आवश्यक है।
वितरणात्मक लाभ अनुमान
लाभ अनुमान की तकनीक जो केवल औसत मूल्यों के बजाय रिटर्न के पूर्ण वितरण पर विचार करती है, जो ऑफ़लाइन कार्यों का अधिक सूक्ष्म मूल्यांकन करने की अनुमति देती है।
रूढ़िवादी वितरणात्मक सीख
ऑफ़लाइन सीखने का प्रतिमान जो ऑफ़लाइन डेटा में वितरण शिफ्ट के कारण अधिक अनुमान से बचने के लिए रिटर्न के वितरण के रूढ़िवादी अनुमान बनाए रखता है।
वितरणात्मक नमूना दक्षता
माप कि वितरणात्मक ऑफ़लाइन विधियाँ सीमित नमूनों से कितनी कुशलता से सीखती हैं, वितरण जानकारी की समृद्ध संरचना का लाभ उठाकर।