डायना-क्यू द्वारा सीखना - कृत्रिम बुद्धिमत्ता शब्दावली

📖

शब्द

मॉडल-आधारित प्रबलन सीखना

प्रबलन सीखने का एक दृष्टिकोण जहाँ एजेंट वास्तविक इंटरैक्शन के बिना संक्रमणों का अनुकरण करने और अनुभव उत्पन्न करने के लिए पर्यावरण का एक आंतरिक मॉडल बनाता है।

📖

शब्द

डायना-क्यू

प्रबलन सीखने का एक हाइब्रिड एल्गोरिथ्म जो वास्तविक अनुभव से सीधा सीखने और अतिरिक्त सिमुलेटेड अनुभव उत्पन्न करने के लिए सीखे गए मॉडल का उपयोग करके योजना बनाने को जोड़ता है।

📖

शब्द

प्रत्यक्ष सीखना

पर्यावरण के साथ इंटरैक्शन के दौरान एकत्रित किए गए केवल वास्तविक अनुभवों के आधार पर कार्य मूल्यों या नीतियों को अपडेट करने की प्रक्रिया।

📖

शब्द

प्रबलन सीखने में योजना बनाना

वास्तविक पर्यावरण के साथ अतिरिक्त इंटरैक्शन के बिना सिंथेटिक अनुभव उत्पन्न करने और नीति में सुधार करने के लिए पर्यावरण मॉडल का उपयोग।

📖

शब्द

संक्रमण मॉडल

पूर्वानुमानित पर्यावरण मॉडल का एक घटक जो वर्तमान स्थिति और कार्रवाई को देखते हुए अगली स्थितियों की संभाव्यता वितरण का अनुमान लगाता है।

📖

शब्द

पुरस्कार मॉडल

एक सीखी गई फ़ंक्शन जो प्रबलन सीखने के पर्यावरण में प्रत्येक स्थिति-कार्रवाई जोड़ी के लिए अपेक्षित पुरस्कार का अनुमान लगाती है।

📖

शब्द

सिमुलेटेड अनुभव

अतिरिक्त वास्तविक इंटरैक्शन की आवश्यकता के बिना सीखने को तेज करने के लिए पर्यावरण के आंतरिक मॉडल द्वारा कृत्रिम रूप से उत्पन्न नमूने।

📖

शब्द

मूल्य अपडेट

बेलमैन समीकरण के अनुसार देखे गए पुरस्कारों और भविष्य की स्थितियों के मूल्यों के आधार पर कार्य मूल्य अनुमान Q(s,a) को समायोजित करने की पुनरावृत्त प्रक्रिया।

📖

शब्द

अनुभव स्मृति

डेटा संरचना जो योजना बनाने के चरण के दौरान बार-बार अपडेट की अनुमति देने के लिए त्रिक (राज्य, क्रिया, पुरस्कार, अगले_राज्य) संग्रहीत करती है।

📖

शब्द

Dyna-Q+

Dyna-Q का विस्तार जो पर्यावरणीय परिवर्तनों का पता लगाने और उनके अनुकूल होने के लिए राज्य-क्रिया की अंतिम यात्रा के बाद से बीते समय पर आधारित एक अन्वेषण तंत्र को एकीकृत करता है।

📖

शब्द

प्राथमिकता स्वीप

Dyna-Q का एक संस्करण जहां अपडेट को मूल्यों पर उनके संभावित प्रभाव के अनुसार प्राथमिकता दी जाती है, योजना चरण की संगणनात्मक दक्षता को अनुकूलित करते हुए।

📖

शब्द

योजना प्रभाव

जब प्रति वास्तविक चरण योजना चरणों की संख्या बढ़ती है, तो अवलोकन की गई सीखने की तेजी, घटते हुए प्रतिफल के बिंदु तक।

📖

शब्द

एल्गोरिथ्म का अभिसरण

यह गुण सुनिश्चित करता है कि Dyna-Q के मूल्य अनुमान कुछ शर्तों (सटीक मॉडल और असीमित यात्रा) के तहत इष्टतम मूल्यों की ओर अभिसरित होते हैं।

📖

शब्द

मॉडल त्रुटि

वास्तविक पर्यावरण व्यवहार और सीखे गए मॉडल की भविष्यवाणियों के बीच विसंगति, जिसे नियंत्रित न करने पर प्रदर्शन को बिगाड़ सकती है।

📖

शब्द

संगणनात्मक जटिलता

Dyna-Q की संगणनात्मक लागत जो अनुभव स्मृति के आकार और प्रति पुनरावृत्ति योजना अपडेट की संख्या पर रैखिक रूप से निर्भर करती है।

📖

शब्द

मॉडल सामान्यीकरण

अदेखे राज्य-क्रियाओं तक मॉडल की भविष्यवाणियों का बाह्यरेखा निकालने की क्षमता, जो अक्सर तंत्रिका नेटवर्क या अन्य फलन अनुमानकों द्वारा प्राप्त की जाती है।

📖

शब्द

राज्य स्थान का नमूनाकरण

योजना चरण के दौरान मेमोरी से सिमुलेटेड अनुभवों का चयन करने की रणनीति, जो Dyna-Q की सीखने की दक्षता को प्रभावित करती है।

📖

शब्द

योजना फलन

संग्रहीत अनुभवों पर बार-बार अपडेट करने वाला एल्गोरिदमिक घटक, जो बिना नए पर्यावरणीय इंटरैक्शन के मूल्य अनुमानों को परिष्कृत करता है।

📖

शब्द

अनुकूली सीखने की गति

वास्तविक और सिमुलेटेड अनुभवों के विचरण को ध्यान में रखते हुए, अभिसरण को अनुकूलित करने के लिए Dyna-Q में सीखने की दर के गतिशील समायोजन का तंत्र।

एआई शब्दावली

मॉडल-आधारित प्रबलन सीखना

डायना-क्यू

प्रत्यक्ष सीखना

प्रबलन सीखने में योजना बनाना

संक्रमण मॉडल

पुरस्कार मॉडल

सिमुलेटेड अनुभव

मूल्य अपडेट

अनुभव स्मृति

Dyna-Q+

प्राथमिकता स्वीप

योजना प्रभाव

एल्गोरिथ्म का अभिसरण

मॉडल त्रुटि

संगणनात्मक जटिलता

मॉडल सामान्यीकरण

राज्य स्थान का नमूनाकरण

योजना फलन

अनुकूली सीखने की गति

कोई परिणाम नहीं मिला