अलग-अलग सीखना - कृत्रिम बुद्धिमत्ता शब्दावली

📖

शब्द

Apprentissage Temporel Différentiel

Méthode d'apprentissage par renforcement qui combine la programmation dynamique et les méthodes Monte Carlo pour mettre à jour les estimations de valeur après chaque étape sans attendre la fin d'un épisode.

📖

शब्द

Erreur TD

Différence entre la valeur estimée actuelle d'un état et la valeur cible mise à jour en utilisant la récompense immédiate et l'estimation de valeur du prochain état.

📖

शब्द

TD(λ)

Algorithme d'apprentissage temporel différentiel généralisé utilisant un paramètre λ pour pondérer les n-steps returns et les traces d'éligibilité, permettant un compromis entre TD(0) et Monte Carlo.

📖

शब्द

Traces d'Éligibilité

Mécanisme qui garde une mémoire à court terme des états ou actions visités récemment, permettant d'assigner le crédit ou le blame de manière plus efficace dans l'apprentissage par renforcement.

📖

शब्द

SARSA

Algorithme on-policy d'apprentissage temporel différentiel qui met à jour les valeurs d'action-état en utilisant le quintuplet (State, Action, Reward, Next State, Next Action).

📖

शब्द

Bootstrapping TD

Technique où les estimations de valeur actuelles sont mises à jour en utilisant d'autres estimations de valeur, permettant un apprentissage en ligne sans attendre les résultats finaux.

📖

शब्द

Return TD

Estimation du retour attendu depuis un état donné, calculée en combinant les récompenses immédiates avec les estimations de valeur futures selon la méthode temporelle différentielle.

📖

शब्द

Mise à Jour TD

Processus itératif d'ajustement des estimations de valeur en utilisant l'erreur TD multipliée par un taux d'apprentissage pour réduire progressivement l'écart entre prédiction et réalité.

📖

शब्द

अभिसरण टीडी

एक गणितीय संपत्ति जो सीखने की दर और अन्वेषण पर कुछ शर्तों के अधीन अंतराल अधिगम एल्गोरिदम के इष्टतम मूल्यों की ओर अभिसरण की गारंटी देती है।

📖

शब्द

बेलमैन टीडी समीकरण

बेलमैन समीकरण का एक संशोधित स्वरूप जो अंतराल अधिगम के लिए उपयुक्त है, जो किसी स्थिति के मूल्य को तत्काल पुरस्कारों और भविष्य के मूल्यों के फलन के रूप में व्यक्त करता है।

📖

शब्द

टीडी मूल्य फ़ंक्शन

स्थितियों या क्रियाओं के अपेक्षित मूल्य का आवर्ती अनुमान, जो निरंतर टेम्पोरल डिफरेंस विधियों द्वारा इष्टतम मूल्य फ़ंक्शन के करीब लाने के लिए अद्यतन किया जाता है।

📖

शब्द

प्रीडिक्टिव टीडी

अनुक्रमों की भविष्यवाणी के समस्याओं में टेम्पोरल डिफरेंस अधिगम का अनुप्रयोग, जहां एल्गोरिदम भविष्य के मूल्यों की भविष्यवाणी करना सीखता है जो पिछले अवलोकनों पर आधारित होता है।

📖

शब्द

कंट्रोल टीडी

टीडी विधियों का नियंत्रण समस्याओं में विस्तार, जहां एजेंट को केवल स्थितियों का मूल्यांकन करना होता है बल्कि संचित पुरस्कारों को अधिकतम करने के लिए एक इष्टतम क्रिया नीति सीखनी भी होती है।

📖

शब्द

एन-स्टेप टीडी

टेम्पोरल डिफरेंस अधिगम का सामान्यीकरण जो अद्यतन की गणना के लिए एन भविष्य के चरणों का उपयोग करता है, जो टीडी (0) और पूर्ण मॉन्टे कार्लो विधियों के बीच एक समझौता प्रस्तुत करता है।

एआई शब्दावली

Apprentissage Temporel Différentiel

Erreur TD

TD(λ)

Traces d'Éligibilité

SARSA

Bootstrapping TD

Return TD

Mise à Jour TD

अभिसरण टीडी

बेलमैन टीडी समीकरण

टीडी मूल्य फ़ंक्शन

प्रीडिक्टिव टीडी

कंट्रोल टीडी

एन-स्टेप टीडी

कोई परिणाम नहीं मिला