एआई शब्दावली
आर्टिफिशियल इंटेलिजेंस का पूर्ण शब्दकोश
वेक्टर रिवार्ड फंक्शन
एक रिवार्ड फंक्शन जो एक स्केलर के बजाय रिवार्ड्स का एक वेक्टर लौटाता है, जो रीइन्फोर्समेंट लर्निंग में कई संघर्षशील उद्देश्यों को एक साथ कैप्चर करने की अनुमति देता है।
मल्टी-ऑब्जेक्टिव पॉलिसी ऑप्टिमाइज़ेशन
कई नीतियों या एक एकल नीति के समवर्ती अनुकूलन की प्रक्रिया जो विभिन्न उद्देश्यों के अनुरूप कई मूल्य कार्यों को अनुकूलित करने के लिए लक्षित है।
कंटीन्यूअस एक्शन स्पेस आरएल
रीइन्फोर्समेंट लर्निंग का एक पैराडाइम जहां एजेंट निरंतर कार्यों की एक अनंत संख्या में से चुन सकता है, जिसके लिए PPO या SAC जैसे उपयुक्त ऑप्टिमाइज़ेशन एल्गोरिदम की आवश्यकता होती है।
प्रेफरेंस-बेस्ड आरएल
एक दृष्टिकोण जहां उद्देश्यों के बीच समझौतों पर मानव वरीयताओं को एजेंट को पारेटो फ्रंट के वांछनीय समाधानों की ओर मार्गदर्शन करने के लिए सीखने की प्रक्रिया में एकीकृत किया जाता है।
कन्वेक्स पारेटो फ्रंट
एक पारेटो फ्रंट जो गणितीय उत्तलता प्रस्तुत करता है, जिससे सभी इष्टतम समाधानों को खोजने के लिए रैखिक स्केलराइज़ेशन विधियों के उपयोग की अनुमति मिलती है।
वेटेड सम मेथड
एक स्केलराइज़ेशन तकनीक जो प्रत्येक उद्देश्य को एक गुणांक के साथ भारित करके एक स्केलर उद्देश्य फंक्शन बनाती है, सरल लेकिन कन्वेक्स पारेटो फ्रंट्स तक सीमित।
चेबीशेव स्केलराइज़ेशन
एक स्केलराइज़ेशन विधि जो नॉन-कन्वेक्स फ्रंट्स पर भी पारेटो-इष्टतम समाधानों की खोज की गारंटी के लिए चेबीशेव नॉर्म का उपयोग करती है।
एमओआरएल में नैश इक्विलिब्रियम
एक संतुलन बिंदु जहां कोई भी एजेंट अपनी रणनीति को एकतरफा रूप से संशोधित करके अपनी स्थिति में सुधार नहीं कर सकता है, निरंतर कार्यों के साथ मल्टी-ऑब्जेक्टिव गेम्स पर लागू।
गतिशील भारिता
सीखने के दौरान लक्ष्यों के भारों को बदलने की अनुकूली रणनीति जो परेटो फ्रंट का प्रभावी ढंग से पता लगाने और स्थानीय ऑप्टिमा से बचने के लिए है।
गैर-प्रभावित समाधान
समाधानों का एक समूह जहां कोई भी समाधान सभी लक्ष्यों पर दूसरे से सख्ती से बेहतर नहीं है, जो परेटो-ऑप्टिमल समाधानों के समूह का गठन करता है।
लेक्सिकोग्राफिक क्रमबद्ध
एक पदानुक्रमित दृष्टिकोण जहां लक्ष्यों को निरपेक्ष प्राथमिकता के क्रम में क्रमिक रूप से अनुकूलित किया जाता है, विभिन्न रैंकों के लक्ष्यों के बीच किसी भी समझौते के बिना।
स्टोचस्टिक बहु-उद्देश्य नीतियां
निरंतर क्रिया स्थानों में संभाव्यता आधारित नीतियां जो कई लक्ष्यों को एक साथ अनुकूलित करती हैं, अक्सर पैरामीट्रिज्ड गॉसियन वितरण के रूप में लागू होती हैं।
निरंतर परेटो अनुकूलन
सीखने के दौरान परेटो फ्रंट का निरंतर अनुकूलन, जिससे एजेंट को लक्ष्यों के बीच समझौतों को गतिशील रूप से अनुकूलित करने की अनुमति मिलती है।
बहु-उद्देश्य अभिनेता-आलोचक
एक एल्गोरिथम आर्किटेक्चर जो बहु-उद्देश्य समस्याओं के लिए अनुकूलित अभिनेता और आलोचक को जोड़ती है, जिसमें वेक्टर मूल्य कार्य और बहु-उद्देश्य नीतियां होती हैं।
क्रिया स्थान विभाजन
एक तकनीक जो निरंतर क्रिया स्थान को प्रत्येक लक्ष्य के लिए विशेषज्ञ उप-स्थानों में विभाजित करती है, जटिल वातावरणों में बहु-उद्देश्य अनुकूलन को सुगम बनाती है।
बहु-उद्देश्य अन्वेषण-शोषण
बहु-उद्देश्य समस्याओं के लिए विस्तारित दुविधा जहां अन्वेषण का उद्देश्य केवल एक इष्टतम समाधान की बजाय विभिन्न इष्टतम समझौतों की खोज करना होना चाहिए।