बहु-उद्देश्य पदानुक्रमित सुदृढीकरण सीखना - कृत्रिम बुद्धिमत्ता शब्दावली

📖

शब्द

एचआरएल (पदानुक्रमित सुदृढ़ीकरण सीखना)

सुदृढ़ीकरण सीखने का एक प्रतिमान जो नीतियों को पदानुक्रमिक स्तरों में संरचित करता है ताकि अंतरिक्ष और समय के विघटन के माध्यम से जटिल कार्यों का समाधान किया जा सके।

📖

शब्द

अर्ध-मार्कोव निर्णय प्रक्रिया

मार्कोव निर्णय प्रक्रिया का विस्तार जहां संक्रमण चर अवधि ले सकते हैं, जो स्वाभाविक रूप से दीर्घकालिक पदानुक्रमिक क्रियाओं का मॉडलिंग करता है।

📖

शब्द

उप-कार्य खोज

प्रासंगिक उप-कार्यों की पहचान और निर्माण की स्वचालित प्रक्रिया जिससे स्पष्ट मानव पर्यवेक्षण के बिना प्रभावी पदानुक्रम का निर्माण होता है।

📖

शब्द

परेटो अनुकूलता

एक ऐसी अवधारणा जहां कोई भी समाधान एक उद्देश्य को बेहतर नहीं बना सकता बिना दूसरे को बिगाड़े, जो बहु-मानदंड उद्देश्य स्थान में इष्टतम समाधानों की सीमा बनाता है।

📖

शब्द

अदिशीकरण कार्य

उद्देश्यों के वेक्टर को एकल अदिश मान में बदलने वाले कार्य, जो बहु-उद्देश्य समस्याओं पर एकल-उद्देश्य एल्गोरिदम लागू करने की अनुमति देते हैं।

📖

शब्द

एमओ-एचआरएल के लिए नीति ढाल विधियां

बहु-उद्देश्य पदानुक्रमिक संदर्भों के लिए ढाल-आधारित नीति अनुकूलन एल्गोरिदम, जो स्तरों और उद्देश्यों के बीच समझौते का प्रबंधन करते हैं।

📖

शब्द

मूल्य फलन विघटन

वैश्विक मूल्य फलन को प्रत्येक उप-कार्य और उद्देश्य के योगदान में विभाजित करने की तकनीक, जो पदानुक्रमों में वितरित सीखने को सुगम बनाती है।

📖

शब्द

आंतरिक रूप से प्रेरित एचआरएल

एक दृष्टिकोण जहां आंतरिक प्रेरणाएं उप-कार्यों की खोज और चयन का मार्गदर्शन करती हैं, जो पदानुक्रमिक सीखने की खोज और दक्षता में सुधार करता है।

📖

शब्द

बहु-मानदंड निर्णय लेना

कार्यों या नीतियों का चयन करने की प्रक्रिया जो एक पदानुक्रमित ढांचे में कई मात्रात्मक और गुणात्मक मानदंडों का एक साथ मूल्यांकन करने पर आधारित है।

📖

शब्द

उद्देश्य स्थान विभाजन

उद्देश्य स्थान को क्षेत्रों में विभाजित करना जो विशिष्ट उद्देश्य संयोजनों के लिए विभिन्न पदानुक्रमित स्तरों या विशेषज्ञ उप-नीतियों द्वारा प्रबंधित होते हैं।

📖

शब्द

पदानुक्रमित बहु-उद्देश्य नीति अनुकूलन

कई पदानुक्रमिक स्तरों पर नीतियों का एक साथ अनुकूलन करना, जिसका उद्देश्य विरोधाभासी लक्ष्यों के एक सेट को विभिन्न समय क्षितिज के साथ अधिकतम करना है।

एआई शब्दावली

एचआरएल (पदानुक्रमित सुदृढ़ीकरण सीखना)

अर्ध-मार्कोव निर्णय प्रक्रिया

उप-कार्य खोज

परेटो अनुकूलता

अदिशीकरण कार्य

एमओ-एचआरएल के लिए नीति ढाल विधियां

मूल्य फलन विघटन

आंतरिक रूप से प्रेरित एचआरएल

बहु-मानदंड निर्णय लेना

उद्देश्य स्थान विभाजन

पदानुक्रमित बहु-उद्देश्य नीति अनुकूलन

कोई परिणाम नहीं मिला