एआई शब्दावली
आर्टिफिशियल इंटेलिजेंस का पूर्ण शब्दकोश
DAgger (Dataset Aggregation)
इमिटेशन लर्निंग एल्गोरिथ्म जो पॉलिसी द्वारा दौरा किए गए राज्यों पर विशेषज्ञ से पूछकर पुनरावृत्त रूप से डेटा एकत्र करता है। यह दृष्टिकोण प्रशिक्षण वितरण और तैनाती वितरण के बीच के अंतर को कम करता है।
डेटा एग्रीगेशन
विभिन्न स्रोतों या प्रशिक्षण पुनरावृत्तियों से कई डेटासेट एकत्र करने और संयोजित करने की प्रक्रिया। डैगर में, यह सीखी गई पॉलिसी की मजबूती को धीरे-धीरे सुधारने की अनुमति देता है।
पुनरावृत्त डेटा संग्रह
कई लगातार चक्रों में किया गया डेटा संग्रह की प्रक्रिया, जिसमें प्रत्येक चक्र पिछले चक्रों की जानकारी का उपयोग करता है। यह दृष्टिकोण निरंतर पॉलिसी को बेहतर बनाने और नए राज्यों का अन्वेषण करने की अनुमति देता है।
व्यवहार नीति
डैगर में डेटा संग्रह के दौरान एजेंट द्वारा अनुसरण की जाने वाली कार्यों पर रणनीति या संभाव्यता वितरण। यह पुनरावृत्तियों के साथ विकसित होती है और इष्टतम पॉलिसी के करीब आती है।
राज्य वितरण
राज्यों का संभाव्यता समूह जिसे एजेंट अपने निष्पादन के दौरान लक्षित करने की संभावना रखता है। डैगर इस वितरण को वास्तविक तैनाती में सामना किए गए वितरण के साथ संरेखित करने का प्रयास करता है।
वितरण पूर्वाग्रह
प्रशिक्षण डेटा के वितरण और उत्पादन में तैनाती के दौरान सामना किए गए वितरण के बीच का अंतर। डैगर वर्तमान पॉलिसी द्वारा वास्तव में दौरा किए गए राज्यों पर डेटा एकत्र करके इस पूर्वाग्रह को कम करता है।
त्रुटि सुधार
वह प्रक्रिया जिसके द्वारा एक विशेषज्ञ तब सही कार्य प्रदान करता है जब एजेंट की वर्तमान पॉलिसी गलतियाँ करती है। ये सुधार पॉलिसी को बेहतर बनाने के लिए नए प्रशिक्षण डेटा के रूप में काम करते हैं।
विशेषज्ञ पूछताछ
एजेंट द्वारा दौरा किए गए विशिष्ट राज्यों के लिए मानव या सिस्टम विशेषज्ञ से इष्टतम कार्यों को आमंत्रित करने की प्रक्रिया। ये पूछताछ उच्च गुणवत्ता वाले प्रशिक्षण डेटा उत्पन्न करने के लिए आवश्यक हैं।
दौरा किया गया अवस्था
एजेंट द्वारा वर्तमान नीति के निष्पादन के दौरान पहुंची गई वातावरण की विशिष्ट कॉन्फ़िगरेशन या स्थिति। ये अवस्थाएँ DAgger में विशेषज्ञ के लिए प्रश्न चिह्न बन जाती हैं।
वर्तमान नीति
एजेंट की निर्णय रणनीति का वर्तमान संस्करण जो DAgger एल्गोरिथ्म के प्रत्येक पुनरावृत्ति में विकसित होता है। इसका उपयोग वातावरण का अन्वेषण करने और उन अवस्थाओं की पहचान करने के लिए किया जाता है जिन्हें विशेषज्ञ सुधार की आवश्यकता होती है।
अनुकूली संग्रहण
DAgger का एक प्रकार जो विशेषज्ञ क्रियाओं बनाम वर्तमान नीति की क्रियाओं के अनुपात को गतिशील रूप से समायोजित करता है। यह अनुकूलन अधिगम के दौरान अन्वेषण और शोषण को संतुलित करने की अनुमति देता है।
प्रतिक्रिया लूप
एक निरंतर चक्र जहां वर्तमान नीति का प्रदर्शन नई अवस्थाएँ उत्पन्न करता है, जिनके बदले में विशेषज्ञ सुधार की आवश्यकता होती है। यह पुनरावृत्त लूप DAgger में सुधार का मूल तंत्र है।
ऑनलाइन सुधार
विशेषज्ञ हस्तक्षेप की प्रक्रिया जो एजेंट की नीति के रियल-टाइम निष्पादन के दौरान होती है। ये तत्काल सुधार ट्रैजेक्टरी में त्रुटियों के प्रसार को रोकने में मदद करते हैं।
ट्रैजेक्टरी वितरण
राज्यों और क्रियाओं के अनुक्रमों का समूह जो एजेंट अपनी वर्तमान नीति का पालन करके उत्पन्न करता है। DAgger का लक्ष्य इस वितरण को इष्टतम विशेषज्ञ नीति द्वारा उत्पादित वितरण के साथ संरेखित करना है।
लक्ष्य नीति
इष्टतम नीति जिसकी एजेंट नकल करने का प्रयास करता है, आमतौर पर विशेषज्ञ के प्रदर्शन द्वारा दर्शाया जाता है। DAgger का उद्देश्य सीखी गई नीति को इस लक्ष्य नीति की ओर अभिसरण करना है।
प्रगतिशील संग्रहण
डेटा संचय की रणनीति जहां प्रत्येक नई पुनरावृत्ति मौजूदा डेटा में पूरक जानकारी जोड़ती है। यह दृष्टिकोण प्रासंगिक अवस्था स्थान की बढ़ती कवरेज सुनिश्चित करता है।
सघनता त्रुटि
सीखी गई नीति और विशेषज्ञ नीति के बीच प्रतिनिधित्व सीमाओं के कारण प्रदर्शन में अंतर। डैगर वास्तविक अवस्थाओं के वितरण पर डेटा एकत्र करके इस त्रुटि को कम करता है।