एआई शब्दावली
आर्टिफिशियल इंटेलिजेंस का पूर्ण शब्दकोश
Processus Décisionnel Markovien
Framework mathématique formel modélisant les problèmes de décision séquentielle en environnement stochastique où les transitions d'états suivent la propriété de Markov.
Propriété de Markov
Principe fondamental stipulant que l'état futur ne dépend que de l'état présent et de l'action entreprise, indépendamment des états passés.
Espace d'États
Ensemble complet de toutes les situations possibles dans lesquelles un agent peut se trouver lors de l'interaction avec l'environnement.
Espace d'Actions
Ensemble de toutes les décisions ou contrôles qu'un agent peut appliquer à chaque état pour influencer l'environnement.
Fonction de Transition
Modèle probabiliste définissant la probabilité de passer d'un état à un autre en exécutant une action spécifique, notée P(s'|s,a).
Fonction de Récompense
Mapping définissant le retour immédiat que l'agent reçoit après avoir effectué une action dans un état particulier, noté R(s,a,s').
Facteur d'Escompte
Paramètre γ ∈ [0,1] pondérant l'importance des récompenses futures par rapport aux récompenses immédiates dans le calcul du retour cumulé.
Politique
Stratégie de décision définissant une distribution de probabilités sur les actions pour chaque état, notée π(a|s), spécifiant le comportement de l'agent.
Fonction de Valeur d'État
Fonction V^π(s) estimant le retour attendu cumulé escompté en partant de l'état s et en suivant la politique π.
Fonction de Valeur d'Action
Fonction Q^π(s,a) évaluant le retour attendu en exécutant l'action a depuis l'état s, puis en suivant la politique π.
Équation de Bellman
Relation récursive fondamentale exprimant la fonction de valeur d'un état comme la récompense immédiate plus la valeur escomptée des états suivants.
Politique Optimale
Politique π* qui maximise la fonction de valeur pour tous les états, garantissant le retour cumulé maximal sur le long terme.
Itération de Valeur
Algorithme de programmation dynamique convergeant vers la fonction de valeur optimale par mises à jour successives basées sur l'équation de Bellman.
Itération de Politique
Algorithme alternant entre évaluation de politique et amélioration de politique jusqu'à convergence vers la politique optimale.
Retour Cumulé
Somme escomptée des récompenses futures obtenues en suivant une politique depuis un état ou une paire état-action donnée.
Convergence
Propriété des algorithmes d'apprentissage garantissant l'atteinte de la solution optimale après un nombre fini ou infini d'itérations.
बेल्मन इष्टतमता समीकरण
इष्टतम मूल्य फ़ंक्शन के लिए बेल्मन समीकरण का विशिष्ट सूत्रीकरण, जो एमडीपी के समाधान एल्गोरिदम के लिए आधार का काम करता है।
आंशिक रूप से दृश्य अंक निर्णय प्रक्रिया
एमडीपी का एक विस्तार जहां एजेंट केवल वास्तविक स्थिति का एक हिस्सा देख पाता है, और निर्णय लेने के लिए अवलोकनों के आधार पर अनुमान लगाने की आवश्यकता होती है।
संक्रमण मैट्रिक्स
एक छोटे स्थान वाले एमडीपी में प्रत्येक संभावित क्रिया के लिए स्थिति से स्थिति में संक्रमण की संभावना का मैट्रिक्स प्रतिनिधित्व।