फ़ेडरेटेड रीइन्फोर्समेंट लर्निंग

📖

शब्द

रीइन्फोर्समेंट लर्निंग के सिद्धांतों को फ़ेडरेटेड लर्निंग के साथ जोड़ने वाला मशीन लर्निंग पैराडाइम, जो कई एजेंटों को अपने कच्चे डेटा साझा किए बिना सामूहिक रूप से सीखने की अनुमति देता है। एजेंट स्थानीय सीखने का प्रदर्शन करते हैं और फिर एक सामान्य वैश्विक नीति में सुधार के लिए अपने ज्ञान को एकत्रित करते हैं।

📖

शब्द

फ़ेडरेटेड एजेंट

एक वितरित वातावरण में संचालित होने वाला स्वायत्त सीखने वाला इकाई जो फ़ेडरेटेड सीखने की प्रक्रिया में भाग लेता है, साथ ही अपने स्थानीय डेटा की गोपनीयता बनाए रखता है। एजेंट अपनी स्थानीय नीति के आधार पर निर्णय लेता है, साथ ही वैश्विक मॉडल में सुधार के लिए योगदान देता है।

📖

शब्द

वैश्विक नीति

फ़ेडरेटेड सीखने की प्रणाली में विभिन्न भाग लेने वाले एजेंटों की स्थानीय नीतियों के समेकन से प्राप्त समेकित निर्णय रणनीति। यह नीति सामूहिक ज्ञान का प्रतिनिधित्व करती है और उनके भविष्य के कार्यों को निर्देशित करने के लिए समय-समय पर एजेंटों को वितरित की जाती है।

📖

शब्द

नीति समेकन

एक बेहतर वैश्विक नीति बनाने के लिए कई स्थानीय एजेंटों से आने वाली नीतियों या सीखने के मापदंडों को संयोजित करने की एल्गोरिदमिक प्रक्रिया। समेकन आमतौर पर भारित औसत तकनीकों या रीइन्फोर्समेंट लर्निंग के लिए अनुकूलित FedAvg जैसी अधिक परिष्कृत विधियों का उपयोग करता है।

📖

शब्द

सिंक्रोनस संचार

समन्वय का एक तरीका जहां सभी फ़ेडरेटेड एजेंटों को वैश्विक समेकन के लिए आगे बढ़ने से पहले अपने स्थानीय सीखने के चक्र को पूरा करना होता है। यह दृष्टिकोण समयिक स्थिरता सुनिश्चित करता है लेकिन धीमे एजेंटों के कारण बाधाएं पैदा कर सकता है।

📖

शब्द

डिफरेंशियल प्राइवेसी

एक औपचारिक ढांचा जो गारंटी देता है कि किसी व्यक्तिगत एजेंट का योगदान समेकित वैश्विक मॉडल से महत्वपूर्ण रूप से अनुमानित नहीं किया जा सकता है। फ़ेडरेटेड संदर्भ में, यह अनुमानित हमलों से सुरक्षा प्रदान करता है, साथ ही प्रभावी सहयोगात्मक सीखने की अनुमति देता है।

📖

शब्द

फ़ेडरेटेड मल्टी-एजेंट लर्निंग

फ़ेडरेटेड रीइन्फोर्समेंट लर्निंग का विस्तार जहां कई एजेंट संभावित रूप से अलग-अलग वातावरणों में बातचीत करते हैं लेकिन अपने प्रदर्शन को सामूहिक रूप से सुधारने के लिए ज्ञान साझा करते हैं। यह दृष्टिकोण मल्टी-एजेंट समन्वय की चुनौतियों को फ़ेडरेटेड गोपनीयता की बाधाओं के साथ जोड़ता है।

📖

शब्द

फ़ेडरेटेड कन्वर्जेंस

एक गुण जो गारंटी देता है कि फ़ेडरेटेड रीइन्फोर्समेंट लर्निंग एल्गोरिदम डेटा के वितरण और सीमित संचार के बावजूद एक इष्टतम या अर्ध-इष्टतम नीति प्राप्त करता है। अभिसरण डेटा की विषमता, संचार की आवृत्ति और समेकन की विधि जैसे कारकों पर निर्भर करता है।

📖

शब्द

फ़ेडरेटेड ग्रेडिएंट

विभिन्न भाग लेने वाले एजेंटों के स्थानीय ग्रेडिएंट से वितरित तरीके से गणना किए गए वैश्विक उद्देश्य फ़ंक्शन का ग्रेडिएंट। फ़ेडरेटेड ग्रेडिएंट एजेंटों के संवेदनशील डेटा को उजागर किए बिना मॉडल पैरामीटर को अपडेट करने की अनुमति देते हैं।

📖

शब्द

स्थानीय अनुभव

एक व्यक्तिगत एजेंट द्वारा स्थानीय शिक्षण चक्र के दौरान अपने विशिष्ट वातावरण में संचित राज्य-कार्य-पुरस्कार संक्रमणों का सेट। यह अनुभव निजी रहता है और केवल एकत्रीकरण से पहले स्थानीय अपडेट की गणना करने के लिए कार्य करता है।

📖

शब्द

विकेंद्रीकृत समन्वय

एजेंटों को स्पष्ट केंद्रीकरण के बिना सामान्य लक्ष्यों पर संरेखित करने की अनुमति देने वाली तंत्र, जो पीयर-टू-पीयर संचार या सहमति प्रोटोकॉल का उपयोग करती है। फ़ेडरेटेड लर्निंग में, यह स्थानीय नीतियों के पुनरावृत्त एकत्रीकरण के माध्यम से उभरती है।

📖

शब्द

भारित एकत्रीकरण

स्थानीय योगदानों के एकत्रीकरण की तकनीक जहां प्रत्येक एजेंट को उसके डेटा की गुणवत्ता या मात्रा, उसके प्रदर्शन या अन्य प्रासंगिक मेट्रिक्स के आधार पर वजन दिया जाता है। यह दृष्टिकोण अधिक विश्वसनीय या प्रतिनिधि एजेंटों को अधिक प्रभाव देने की अनुमति देता है।

📖

शब्द

फ़ेडरेटेड एक्सप्लोरेशन

वितरित एक्सप्लोरेशन रणनीति जहां एजेंट सामूहिक खोज को अधिकतम करते हुए अतिरेक को कम करने के लिए समन्वित तरीके से विभिन्न राज्य-कार्य स्थानों का पता लगाते हैं। फ़ेडरेटेड एक्सप्लोरेशन जटिल और वितरित वातावरण में सीखने की दक्षता को अनुकूलित करता है।

📖

शब्द

वितरित पुरस्कार

पुरस्कार प्रणाली जहां एजेंटों को उनके कार्यों के आधार पर स्थानीय प्रतिक्रिया मिलती है, जबकि वे एक साझा वैश्विक उद्देश्य में योगदान देते हैं। वितरित पुरस्कारों को व्यक्तिगत प्रोत्साहनों को फ़ेडरेटेड सिस्टम के सामूहिक प्रदर्शन के साथ संतुलित करना चाहिए।

📖

शब्द

फ़ेडरेटेड ज्ञान स्थानांतरण

एक एजेंट या एजेंटों के समूह द्वारा सीखे गए ज्ञान को फ़ेडरेटेड नेटवर्क के अन्य एजेंटों में चुनिंदा रूप से स्थानांतरित करने की प्रक्रिया। यह स्थानांतरण गोपनीयता बाधाओं का सम्मान करते हुए सफल अनुभवों का लाभ उठाकर सीखने की दक्षता को अनुकूलित करता है।

📖

शब्द

विफलताओं के प्रति मजबूती

कुछ भाग लेने वाले एजेंटों के डिस्कनेक्शन, दुर्भावनापूर्ण व्यवहार या गिरावट के बावजूद फ़ेडरेटेड लर्निंग सिस्टम की अपने प्रदर्शन को बनाए रखने की क्षमता। अनियंत्रित वितरित वातावरण में विश्वसनीयता सुनिश्चित करने के लिए मजबूती आवश्यक है।

एआई शब्दावली