निरंतर बहु-उद्देश्य प्रबलित अधिगम - कृत्रिम बुद्धिमत्ता शब्दावली

📖

शब्द

वेक्टर रिवार्ड फंक्शन

एक रिवार्ड फंक्शन जो एक स्केलर के बजाय रिवार्ड्स का एक वेक्टर लौटाता है, जो रीइन्फोर्समेंट लर्निंग में कई संघर्षशील उद्देश्यों को एक साथ कैप्चर करने की अनुमति देता है।

📖

शब्द

मल्टी-ऑब्जेक्टिव पॉलिसी ऑप्टिमाइज़ेशन

कई नीतियों या एक एकल नीति के समवर्ती अनुकूलन की प्रक्रिया जो विभिन्न उद्देश्यों के अनुरूप कई मूल्य कार्यों को अनुकूलित करने के लिए लक्षित है।

📖

शब्द

कंटीन्यूअस एक्शन स्पेस आरएल

रीइन्फोर्समेंट लर्निंग का एक पैराडाइम जहां एजेंट निरंतर कार्यों की एक अनंत संख्या में से चुन सकता है, जिसके लिए PPO या SAC जैसे उपयुक्त ऑप्टिमाइज़ेशन एल्गोरिदम की आवश्यकता होती है।

📖

शब्द

प्रेफरेंस-बेस्ड आरएल

एक दृष्टिकोण जहां उद्देश्यों के बीच समझौतों पर मानव वरीयताओं को एजेंट को पारेटो फ्रंट के वांछनीय समाधानों की ओर मार्गदर्शन करने के लिए सीखने की प्रक्रिया में एकीकृत किया जाता है।

📖

शब्द

कन्वेक्स पारेटो फ्रंट

एक पारेटो फ्रंट जो गणितीय उत्तलता प्रस्तुत करता है, जिससे सभी इष्टतम समाधानों को खोजने के लिए रैखिक स्केलराइज़ेशन विधियों के उपयोग की अनुमति मिलती है।

📖

शब्द

वेटेड सम मेथड

एक स्केलराइज़ेशन तकनीक जो प्रत्येक उद्देश्य को एक गुणांक के साथ भारित करके एक स्केलर उद्देश्य फंक्शन बनाती है, सरल लेकिन कन्वेक्स पारेटो फ्रंट्स तक सीमित।

📖

शब्द

चेबीशेव स्केलराइज़ेशन

एक स्केलराइज़ेशन विधि जो नॉन-कन्वेक्स फ्रंट्स पर भी पारेटो-इष्टतम समाधानों की खोज की गारंटी के लिए चेबीशेव नॉर्म का उपयोग करती है।

📖

शब्द

एमओआरएल में नैश इक्विलिब्रियम

एक संतुलन बिंदु जहां कोई भी एजेंट अपनी रणनीति को एकतरफा रूप से संशोधित करके अपनी स्थिति में सुधार नहीं कर सकता है, निरंतर कार्यों के साथ मल्टी-ऑब्जेक्टिव गेम्स पर लागू।

📖

शब्द

गतिशील भारिता

सीखने के दौरान लक्ष्यों के भारों को बदलने की अनुकूली रणनीति जो परेटो फ्रंट का प्रभावी ढंग से पता लगाने और स्थानीय ऑप्टिमा से बचने के लिए है।

📖

शब्द

गैर-प्रभावित समाधान

समाधानों का एक समूह जहां कोई भी समाधान सभी लक्ष्यों पर दूसरे से सख्ती से बेहतर नहीं है, जो परेटो-ऑप्टिमल समाधानों के समूह का गठन करता है।

📖

शब्द

लेक्सिकोग्राफिक क्रमबद्ध

एक पदानुक्रमित दृष्टिकोण जहां लक्ष्यों को निरपेक्ष प्राथमिकता के क्रम में क्रमिक रूप से अनुकूलित किया जाता है, विभिन्न रैंकों के लक्ष्यों के बीच किसी भी समझौते के बिना।

📖

शब्द

स्टोचस्टिक बहु-उद्देश्य नीतियां

निरंतर क्रिया स्थानों में संभाव्यता आधारित नीतियां जो कई लक्ष्यों को एक साथ अनुकूलित करती हैं, अक्सर पैरामीट्रिज्ड गॉसियन वितरण के रूप में लागू होती हैं।

📖

शब्द

निरंतर परेटो अनुकूलन

सीखने के दौरान परेटो फ्रंट का निरंतर अनुकूलन, जिससे एजेंट को लक्ष्यों के बीच समझौतों को गतिशील रूप से अनुकूलित करने की अनुमति मिलती है।

📖

शब्द

बहु-उद्देश्य अभिनेता-आलोचक

एक एल्गोरिथम आर्किटेक्चर जो बहु-उद्देश्य समस्याओं के लिए अनुकूलित अभिनेता और आलोचक को जोड़ती है, जिसमें वेक्टर मूल्य कार्य और बहु-उद्देश्य नीतियां होती हैं।

📖

शब्द

क्रिया स्थान विभाजन

एक तकनीक जो निरंतर क्रिया स्थान को प्रत्येक लक्ष्य के लिए विशेषज्ञ उप-स्थानों में विभाजित करती है, जटिल वातावरणों में बहु-उद्देश्य अनुकूलन को सुगम बनाती है।

📖

शब्द

बहु-उद्देश्य अन्वेषण-शोषण

बहु-उद्देश्य समस्याओं के लिए विस्तारित दुविधा जहां अन्वेषण का उद्देश्य केवल एक इष्टतम समाधान की बजाय विभिन्न इष्टतम समझौतों की खोज करना होना चाहिए।

एआई शब्दावली

वेक्टर रिवार्ड फंक्शन

मल्टी-ऑब्जेक्टिव पॉलिसी ऑप्टिमाइज़ेशन

कंटीन्यूअस एक्शन स्पेस आरएल

प्रेफरेंस-बेस्ड आरएल

कन्वेक्स पारेटो फ्रंट

वेटेड सम मेथड

चेबीशेव स्केलराइज़ेशन

एमओआरएल में नैश इक्विलिब्रियम

गतिशील भारिता

गैर-प्रभावित समाधान

लेक्सिकोग्राफिक क्रमबद्ध

स्टोचस्टिक बहु-उद्देश्य नीतियां

निरंतर परेटो अनुकूलन

बहु-उद्देश्य अभिनेता-आलोचक

क्रिया स्थान विभाजन

बहु-उद्देश्य अन्वेषण-शोषण

कोई परिणाम नहीं मिला