मार्कोव निर्णय प्रक्रिया - कृत्रिम बुद्धिमत्ता शब्दावली

📖

शब्द

Processus Décisionnel Markovien

Framework mathématique formel modélisant les problèmes de décision séquentielle en environnement stochastique où les transitions d'états suivent la propriété de Markov.

📖

शब्द

Propriété de Markov

Principe fondamental stipulant que l'état futur ne dépend que de l'état présent et de l'action entreprise, indépendamment des états passés.

📖

शब्द

Espace d'États

Ensemble complet de toutes les situations possibles dans lesquelles un agent peut se trouver lors de l'interaction avec l'environnement.

📖

शब्द

Espace d'Actions

Ensemble de toutes les décisions ou contrôles qu'un agent peut appliquer à chaque état pour influencer l'environnement.

📖

शब्द

Fonction de Transition

Modèle probabiliste définissant la probabilité de passer d'un état à un autre en exécutant une action spécifique, notée P(s'|s,a).

📖

शब्द

Fonction de Récompense

Mapping définissant le retour immédiat que l'agent reçoit après avoir effectué une action dans un état particulier, noté R(s,a,s').

📖

शब्द

Facteur d'Escompte

Paramètre γ ∈ [0,1] pondérant l'importance des récompenses futures par rapport aux récompenses immédiates dans le calcul du retour cumulé.

📖

शब्द

Politique

Stratégie de décision définissant une distribution de probabilités sur les actions pour chaque état, notée π(a|s), spécifiant le comportement de l'agent.

📖

शब्द

Fonction de Valeur d'État

Fonction V^π(s) estimant le retour attendu cumulé escompté en partant de l'état s et en suivant la politique π.

📖

शब्द

Fonction de Valeur d'Action

Fonction Q^π(s,a) évaluant le retour attendu en exécutant l'action a depuis l'état s, puis en suivant la politique π.

📖

शब्द

Équation de Bellman

Relation récursive fondamentale exprimant la fonction de valeur d'un état comme la récompense immédiate plus la valeur escomptée des états suivants.

📖

शब्द

Politique Optimale

Politique π* qui maximise la fonction de valeur pour tous les états, garantissant le retour cumulé maximal sur le long terme.

📖

शब्द

Itération de Valeur

Algorithme de programmation dynamique convergeant vers la fonction de valeur optimale par mises à jour successives basées sur l'équation de Bellman.

📖

शब्द

Itération de Politique

Algorithme alternant entre évaluation de politique et amélioration de politique jusqu'à convergence vers la politique optimale.

📖

शब्द

Retour Cumulé

Somme escomptée des récompenses futures obtenues en suivant une politique depuis un état ou une paire état-action donnée.

📖

शब्द

Convergence

Propriété des algorithmes d'apprentissage garantissant l'atteinte de la solution optimale après un nombre fini ou infini d'itérations.

📖

शब्द

बेल्मन इष्टतमता समीकरण

इष्टतम मूल्य फ़ंक्शन के लिए बेल्मन समीकरण का विशिष्ट सूत्रीकरण, जो एमडीपी के समाधान एल्गोरिदम के लिए आधार का काम करता है।

📖

शब्द

आंशिक रूप से दृश्य अंक निर्णय प्रक्रिया

एमडीपी का एक विस्तार जहां एजेंट केवल वास्तविक स्थिति का एक हिस्सा देख पाता है, और निर्णय लेने के लिए अवलोकनों के आधार पर अनुमान लगाने की आवश्यकता होती है।

📖

शब्द

संक्रमण मैट्रिक्स

एक छोटे स्थान वाले एमडीपी में प्रत्येक संभावित क्रिया के लिए स्थिति से स्थिति में संक्रमण की संभावना का मैट्रिक्स प्रतिनिधित्व।

एआई शब्दावली

Processus Décisionnel Markovien

Propriété de Markov

Espace d'États

Espace d'Actions

Fonction de Transition

Fonction de Récompense

Facteur d'Escompte

Politique

Fonction de Valeur d'État

Fonction de Valeur d'Action

Équation de Bellman

Politique Optimale

Itération de Valeur

Itération de Politique

Retour Cumulé

Convergence

बेल्मन इष्टतमता समीकरण

आंशिक रूप से दृश्य अंक निर्णय प्रक्रिया

संक्रमण मैट्रिक्स

कोई परिणाम नहीं मिला