क्यू-लर्निंग - कृत्रिम बुद्धिमत्ता शब्दावली

📖

शब्द

Table Q

Structure de données bidimensionnelle stockant les valeurs Q pour chaque paire état-action, utilisée dans les versions tabulaires du Q-learning pour les espaces discrets.

📖

शब्द

Mise à jour de Bellman

Équation d'itération de la valeur qui met à jour la fonction Q en utilisant la récompense immédiate et la valeur Q maximale de l'état suivant, pondérée par le facteur d'escompte.

📖

शब्द

Taux d'apprentissage alpha

Paramètre α ∈ [0,1] contrôlant l'importance des nouvelles informations dans la mise à jour des valeurs Q, déterminant la vitesse de convergence de l'algorithme.

📖

शब्द

Facteur d'escompte gamma

Paramètre γ ∈ [0,1] qui pondère l'importance des récompenses futures par rapport aux récompenses immédiates dans le calcul des valeurs Q.

📖

शब्द

Stratégie epsilon-greedy

Politique d'action qui choisit l'action optimale avec probabilité 1-ε et une action aléatoire avec probabilité ε, permettant un compromis contrôlé entre exploration et exploitation.

📖

शब्द

Convergence du Q-learning

Propriété théorique garantissant que les valeurs Q convergent vers les valeurs Q optimales sous certaines conditions, notamment un taux d'apprentissage décroissant et une exploration suffisante.

📖

शब्द

Apprentissage sans modèle

Approche où l'agent apprend directement la politique ou la fonction de valeur sans construire de modèle explicite de la dynamique de l'environnement.

📖

शब्द

Processus de décision de Markov

Cadre mathématique pour modéliser les problèmes de décision séquentiels où les états futurs dépendent uniquement de l'état actuel et de l'action, respectant la propriété de Markov.

📖

शब्द

देरी से पुरस्कार

अवधारणा जहां क्रियाएं तत्काल कम पुरस्कार उत्पन्न कर सकती हैं लेकिन भविष्य में अधिक पुरस्कार की आवश्यकता होती है, जिसके लिए सीखने में दीर्घकालिक योजना की आवश्यकता होती है।

📖

शब्द

अंतिम स्थिति

एक अवशोषित स्थिति जो सीखने के प्रकरण को समाप्त कर देती है, जिसके बाद कोई अतिरिक्त कार्य संभव नहीं है और क्यू-फ़ंक्शन को अब अपडेट नहीं किया जाता है।

📖

शब्द

प्रारंभिक क्यू-मान

सीखने की शुरुआत में प्रत्येक स्थिति-क्रिया युग्म को निर्धारित मान, जो अभिसरण की गति और प्रारंभिक अन्वेषण व्यवहार को प्रभावित कर सकता है।

📖

शब्द

एप्सिलॉन में कमी

एप्सिलॉन-ग्रीडी नीति में ε पैरामीटर को क्रमिक रूप से कम करने की रणनीति जो प्रारंभिक अन्वेषण और अंतिम उपयोग को प्रोत्साहित करने के लिए होती है।

📖

शब्द

अधिकतम-ऑपरेटर

क्यू-लर्निंग अपडेट में गणितीय संक्रिया जो भविष्य के पुरस्कारों का आकलन करने के लिए अगली स्थिति की सभी संभावित क्रियाओं में से अधिकतम क्यू-मान का चयन करती है।

📖

शब्द

डबल क्यू-लर्निंग

क्यू-लर्निंग की एक विविधता जो कार्यों के चयन और मूल्यांकन को अलग करके अतिमूल्यांकन के झुकाव को कम करने के लिए दो क्यू-फ़ंक्शन का उपयोग करती है।

📖

शब्द

अनंत कालिक क्षितिज

शर्त जहां प्रकरणों का कोई पूर्व निर्धारित अंत नहीं होता है, जिसके लिए क्यू-मानों के अभिसरण को सुनिश्चित करने के लिए छोटा गामा (γ) < 1 की आवश्यकता होती है।

📖

शब्द

आशावादी झुकाव

घटना जहां क्यू अनुमान प्रारंभ में आशावादी होते हैं, जो अन्वेषण को प्रोत्साहित करता है क्योंकि कम प्रयुक्त क्रियाएं कृत्रिम रूप से आकर्षक लगती हैं।

एआई शब्दावली

Table Q

Mise à jour de Bellman

Taux d'apprentissage alpha

Facteur d'escompte gamma

Stratégie epsilon-greedy

Convergence du Q-learning

Apprentissage sans modèle

Processus de décision de Markov

देरी से पुरस्कार

अंतिम स्थिति

प्रारंभिक क्यू-मान

एप्सिलॉन में कमी

अधिकतम-ऑपरेटर

डबल क्यू-लर्निंग

अनंत कालिक क्षितिज

आशावादी झुकाव

कोई परिणाम नहीं मिला