एआई शब्दावली
आर्टिफिशियल इंटेलिजेंस का पूर्ण शब्दकोश
बहु-उद्देश्य Q-लर्निंग
परंपरागत Q-लर्निंग एल्गोरिथम का विस्तार जो स्केलर मानों के बजाय इनाम वैक्टर को प्रबंधित करता है, जिससे कई विरोधाभासी उद्देश्यों का एक साथ अनुकूलन संभव होता है।
Q-मान वैक्टर
एक बहु-आयामी डेटा संरचना जहाँ प्रत्येक तत्व एक विशिष्ट उद्देश्य के लिए Q-मान का प्रतिनिधित्व करता है, जो पारंपरिक Q-लर्निंग के एकल स्केलर मान को बदलता है।
लेक्सिकोग्राफिक दृष्टिकोण
एक बहु-उद्देश्य समाधान रणनीति जहाँ उद्देश्यों को प्राथमिकता के अनुसार क्रमबद्ध किया जाता है और अनुक्रमिक रूप से अनुकूलित किया जाता है, प्रत्येक उद्देश्य को केवल उच्च प्राथमिकता वाले उद्देश्यों के पूर्ण अनुकूलन के बाद ही विचार किया जाता है।
बहु-उद्देश्य समझौता
कुछ उद्देश्यों में सुधार और अन्य में संभावित गिरावट के बीच आवश्यक संतुलन, जो विरोधाभासी उद्देश्यों वाले अनुकूलन समस्याओं के लिए अंतर्निहित है।
भारित Q-मान
प्रत्येक उद्देश्य के व्यक्तिगत Q-मानों का रेखीय संयोजन जो विशिष्ट भारों का उपयोग करता है ताकि अंतिम निर्णय में प्रत्येक उद्देश्य की सापेक्ष महत्व को प्रतिबिंबित किया जा सके।
परेटो Q-लर्निंग एल्गोरिथम
Q-लर्निंग का एक प्रकार जो परेटो-इष्टतम नीतियों का एक सेट बनाए रखता है और उद्देश्यों के बीच सभी संभावित समझौतों के लिए Q-मानों को एक साथ सीखता है।
बहु-उद्देश्य अन्वेषण
बहु-उद्देश्य वातावरण के लिए अनुकूल एक अन्वेषण रणनीति जो विभिन्न उद्देश्यों के बीच समझौतों की खोज को संतुलित करना चाहिए और साथ ही सीखने की दक्षता बनाए रखनी चाहिए।
Q-लर्निंग में नैश संतुलन
बहु-उद्देश्य Q-लर्निंग पर लागू खेल सिद्धांत की अवधारणा जहाँ कोई भी नीति एक उद्देश्य पर अपने प्रदर्शन को एकतरफा रूप से नहीं सुधार सकती है बिना दूसरे उद्देश्य पर अपने प्रदर्शन को खराब किए।
उद्देश्य विघटन
एक तकनीक जो कई उद्देश्य वाली समस्या को कई एकल-उद्देश्य उप-समस्याओं में बदल देती है जिन्हें एक साथ अनुकूलित किया जाता है, परेटो फ्रंट पर विविध समाधानों की खोज को आसान बनाती है।
पुरस्कार वेक्टर
एक बहुआयामी पुरस्कार वेक्टर जहां प्रत्येक घटक एक विशिष्ट उद्देश्य से संबंधित पुरस्कार के अनुरूप होता है, जो पारंपरिक स्केलर पुरस्कार सिग्नल को प्रतिस्थापित करता है।
नीति स्थान अनुकूलन
सीखने की समस्या की बहु-उद्देश्य प्रकृति द्वारा प्रस्तुत अतिरिक्त जटिलता को प्रभावी ढंग से प्रबंधित करने के लिए नीति स्थान का गतिशील अनुकूलन।