ऑनलाइन ऑप्टिमाइज़ेशन - कृत्रिम बुद्धिमत्ता शब्दावली

📖

शब्द

बैंडिट एल्गोरिदम

ऑनलाइन सीखने के एल्गोरिदम का एक परिवार जहां एजेंट को संचित लाभ को अधिकतम करने के लिए अनिश्चित पुरस्कारों के साथ क्रमिक रूप से कार्यों का चयन करना होता है।

📖

शब्द

फॉलो द लीडर (FTL)

ऑनलाइन अनुकूलन की एक रणनीति जहां एल्गोरिदम प्रत्येक चरण पर उस कार्य का चयन करता है जो अब तक देखे गए पिछले डेटा पर इष्टतम होता।

📖

शब्द

फॉलो द रेगुलराइज्ड लीडर (FTRL)

FTL का एक प्रकार जो अनुक्रमिक निर्णयों को स्थिर करने और प्रतिकूल वातावरण में बेहतर अफसोस की सीमा सुनिश्चित करने के लिए नियमितीकरण शामिल करता है।

📖

शब्द

ऑनलाइन ग्रेडिएंट डिसेंट

अनुकूलन एल्गोरिदम जो प्रत्येक नए अवलोकन पर गणना किए गए हानि फ़ंक्शन के ग्रेडिएंट के विपरीत दिशा में मॉडल के मापदंडों को अपडेट करता है।

📖

शब्द

मल्टीप्लिकेटिव वेट्स अपडेट

ऑनलाइन अनुकूलन की एक विधि जो विशेषज्ञों के पिछले प्रदर्शन के आधार पर उनके भारों को घातीय रूप से समायोजित करती है ताकि उनकी भविष्यवाणियों को संयोजित किया जा सके।

📖

शब्द

विशेषज्ञ सलाह

ऑनलाइन सीखने का एक ढांचा जहां एल्गोरिदम को सर्वश्रेष्ठ विशेषज्ञ के सापेक्ष अफसोस को कम करने के लिए कई विशेषज्ञों की सिफारिशों को समाहित करना होता है।

📖

शब्द

ऑनलाइन उत्तल अनुकूलन

गणितीय सिद्धांत जो उत्तल फ़ंक्शनों के अनुक्रमिक अनुकूलन का अध्ययन करता है, जहां हानि फ़ंक्शन समय के साथ धीरे-धीरे प्रकट होते हैं।

📖

शब्द

प्रतिकूल ऑनलाइन सीखना

ऑनलाइन सीखने का एक परिदृश्य जहां डेटा एक संभावित दुर्भावनापूर्ण प्रतिकूल द्वारा उत्पन्न किया जाता है जो एल्गोरिदम के अफसोस को अधिकतम करने का प्रयास करता है।

📖

शब्द

एक्सप्लोरेशन-एक्सप्लॉइटेशन ट्रेड-ऑफ

ऑनलाइन सीखने में मूलभूत दुविधा जहां नए कार्यों की खोज करके उनके पुरस्कार जानने और ज्ञात बेहतर कार्यों का उपयोग करने के बीच संतुलन बनाना होता है।

📖

शब्द

ऑनलाइन मिरर डिसेंट

ग्रेडिएंट डिसेंट का सामान्यीकरण जो ब्रेगमैन फ़ंक्शन का उपयोग करके अद्यतनों को एक सीमित स्थान में प्रक्षेपित करता है, जो अनुकूलन में बेहतर लचीलापन प्रदान करता है।

📖

शब्द

आंशिक सूचना के साथ सीखना

एक प्रतिमान जहां एल्गोरिदम को केवल चुने गए कार्य (बैंडिट) के बारे में जानकारी मिलती है, न कि सभी संभावित कार्यों (पूर्ण सूचना) के बारे में।

📖

शब्द

अनुकूली सीखने की दर

एक तंत्र जो गैर-स्थिर वातावरण में अभिसरण को अनुकूलित करने के लिए हानि परिदृश्य के स्थानीय गुणों के आधार पर सीखने के चरण को गतिशील रूप से समायोजित करता है।

📖

शब्द

हेज एल्गोरिदम

विशेषज्ञों के समुच्चय का एल्गोरिदम जो सर्वश्रेष्ठ विशेषज्ञ के सापेक्ष लघुगणकीय अफसोस की गारंटी देने के लिए वज़न के गुणात्मक अद्यतन का उपयोग करता है।

📖

शब्द

अफसोस सीमा

संचयी अफसोस पर सैद्धांतिक ऊपरी सीमा जो एक एल्गोरिदम झेल सकता है, जो ऑनलाइन अनुकूलन विधियों के प्रदर्शन की तुलना और गारंटी करने में सक्षम बनाता है।

📖

शब्द

स्टोकेस्टिक ऑनलाइन सीखना

सीखने का ढांचा जहां डेटा एक निश्चित और अज्ञात संभाव्यता वितरण का पालन करता है, जो सबसे खराब स्थिति के बजाय अपेक्षा में प्रदर्शन की गारंटी प्रदान करता है।

एआई शब्दावली

बैंडिट एल्गोरिदम

फॉलो द लीडर (FTL)

फॉलो द रेगुलराइज्ड लीडर (FTRL)

ऑनलाइन ग्रेडिएंट डिसेंट

मल्टीप्लिकेटिव वेट्स अपडेट

विशेषज्ञ सलाह

ऑनलाइन उत्तल अनुकूलन

प्रतिकूल ऑनलाइन सीखना

एक्सप्लोरेशन-एक्सप्लॉइटेशन ट्रेड-ऑफ

ऑनलाइन मिरर डिसेंट

आंशिक सूचना के साथ सीखना

अनुकूली सीखने की दर

हेज एल्गोरिदम

अफसोस सीमा

स्टोकेस्टिक ऑनलाइन सीखना

कोई परिणाम नहीं मिला