एआई शब्दावली
आर्टिफिशियल इंटेलिजेंस का पूर्ण शब्दकोश
Apprentissage Temporel Différentiel
Méthode d'apprentissage par renforcement qui combine la programmation dynamique et les méthodes Monte Carlo pour mettre à jour les estimations de valeur après chaque étape sans attendre la fin d'un épisode.
Erreur TD
Différence entre la valeur estimée actuelle d'un état et la valeur cible mise à jour en utilisant la récompense immédiate et l'estimation de valeur du prochain état.
TD(λ)
Algorithme d'apprentissage temporel différentiel généralisé utilisant un paramètre λ pour pondérer les n-steps returns et les traces d'éligibilité, permettant un compromis entre TD(0) et Monte Carlo.
Traces d'Éligibilité
Mécanisme qui garde une mémoire à court terme des états ou actions visités récemment, permettant d'assigner le crédit ou le blame de manière plus efficace dans l'apprentissage par renforcement.
SARSA
Algorithme on-policy d'apprentissage temporel différentiel qui met à jour les valeurs d'action-état en utilisant le quintuplet (State, Action, Reward, Next State, Next Action).
Bootstrapping TD
Technique où les estimations de valeur actuelles sont mises à jour en utilisant d'autres estimations de valeur, permettant un apprentissage en ligne sans attendre les résultats finaux.
Return TD
Estimation du retour attendu depuis un état donné, calculée en combinant les récompenses immédiates avec les estimations de valeur futures selon la méthode temporelle différentielle.
Mise à Jour TD
Processus itératif d'ajustement des estimations de valeur en utilisant l'erreur TD multipliée par un taux d'apprentissage pour réduire progressivement l'écart entre prédiction et réalité.
अभिसरण टीडी
एक गणितीय संपत्ति जो सीखने की दर और अन्वेषण पर कुछ शर्तों के अधीन अंतराल अधिगम एल्गोरिदम के इष्टतम मूल्यों की ओर अभिसरण की गारंटी देती है।
बेलमैन टीडी समीकरण
बेलमैन समीकरण का एक संशोधित स्वरूप जो अंतराल अधिगम के लिए उपयुक्त है, जो किसी स्थिति के मूल्य को तत्काल पुरस्कारों और भविष्य के मूल्यों के फलन के रूप में व्यक्त करता है।
टीडी मूल्य फ़ंक्शन
स्थितियों या क्रियाओं के अपेक्षित मूल्य का आवर्ती अनुमान, जो निरंतर टेम्पोरल डिफरेंस विधियों द्वारा इष्टतम मूल्य फ़ंक्शन के करीब लाने के लिए अद्यतन किया जाता है।
प्रीडिक्टिव टीडी
अनुक्रमों की भविष्यवाणी के समस्याओं में टेम्पोरल डिफरेंस अधिगम का अनुप्रयोग, जहां एल्गोरिदम भविष्य के मूल्यों की भविष्यवाणी करना सीखता है जो पिछले अवलोकनों पर आधारित होता है।
कंट्रोल टीडी
टीडी विधियों का नियंत्रण समस्याओं में विस्तार, जहां एजेंट को केवल स्थितियों का मूल्यांकन करना होता है बल्कि संचित पुरस्कारों को अधिकतम करने के लिए एक इष्टतम क्रिया नीति सीखनी भी होती है।
एन-स्टेप टीडी
टेम्पोरल डिफरेंस अधिगम का सामान्यीकरण जो अद्यतन की गणना के लिए एन भविष्य के चरणों का उपयोग करता है, जो टीडी (0) और पूर्ण मॉन्टे कार्लो विधियों के बीच एक समझौता प्रस्तुत करता है।