एआई शब्दावली
आर्टिफिशियल इंटेलिजेंस का पूर्ण शब्दकोश
एचआरएल (पदानुक्रमित सुदृढ़ीकरण सीखना)
सुदृढ़ीकरण सीखने का एक प्रतिमान जो नीतियों को पदानुक्रमिक स्तरों में संरचित करता है ताकि अंतरिक्ष और समय के विघटन के माध्यम से जटिल कार्यों का समाधान किया जा सके।
अर्ध-मार्कोव निर्णय प्रक्रिया
मार्कोव निर्णय प्रक्रिया का विस्तार जहां संक्रमण चर अवधि ले सकते हैं, जो स्वाभाविक रूप से दीर्घकालिक पदानुक्रमिक क्रियाओं का मॉडलिंग करता है।
उप-कार्य खोज
प्रासंगिक उप-कार्यों की पहचान और निर्माण की स्वचालित प्रक्रिया जिससे स्पष्ट मानव पर्यवेक्षण के बिना प्रभावी पदानुक्रम का निर्माण होता है।
परेटो अनुकूलता
एक ऐसी अवधारणा जहां कोई भी समाधान एक उद्देश्य को बेहतर नहीं बना सकता बिना दूसरे को बिगाड़े, जो बहु-मानदंड उद्देश्य स्थान में इष्टतम समाधानों की सीमा बनाता है।
अदिशीकरण कार्य
उद्देश्यों के वेक्टर को एकल अदिश मान में बदलने वाले कार्य, जो बहु-उद्देश्य समस्याओं पर एकल-उद्देश्य एल्गोरिदम लागू करने की अनुमति देते हैं।
एमओ-एचआरएल के लिए नीति ढाल विधियां
बहु-उद्देश्य पदानुक्रमिक संदर्भों के लिए ढाल-आधारित नीति अनुकूलन एल्गोरिदम, जो स्तरों और उद्देश्यों के बीच समझौते का प्रबंधन करते हैं।
मूल्य फलन विघटन
वैश्विक मूल्य फलन को प्रत्येक उप-कार्य और उद्देश्य के योगदान में विभाजित करने की तकनीक, जो पदानुक्रमों में वितरित सीखने को सुगम बनाती है।
आंतरिक रूप से प्रेरित एचआरएल
एक दृष्टिकोण जहां आंतरिक प्रेरणाएं उप-कार्यों की खोज और चयन का मार्गदर्शन करती हैं, जो पदानुक्रमिक सीखने की खोज और दक्षता में सुधार करता है।
बहु-मानदंड निर्णय लेना
कार्यों या नीतियों का चयन करने की प्रक्रिया जो एक पदानुक्रमित ढांचे में कई मात्रात्मक और गुणात्मक मानदंडों का एक साथ मूल्यांकन करने पर आधारित है।
उद्देश्य स्थान विभाजन
उद्देश्य स्थान को क्षेत्रों में विभाजित करना जो विशिष्ट उद्देश्य संयोजनों के लिए विभिन्न पदानुक्रमित स्तरों या विशेषज्ञ उप-नीतियों द्वारा प्रबंधित होते हैं।
पदानुक्रमित बहु-उद्देश्य नीति अनुकूलन
कई पदानुक्रमिक स्तरों पर नीतियों का एक साथ अनुकूलन करना, जिसका उद्देश्य विरोधाभासी लक्ष्यों के एक सेट को विभिन्न समय क्षितिज के साथ अधिकतम करना है।