Processus Décisionnels Markoviens

📖

pojęcia

Processus Décisionnel Markovien

Framework mathématique formel modélisant les problèmes de décision séquentielle en environnement stochastique où les transitions d'états suivent la propriété de Markov.

📖

pojęcia

Propriété de Markov

Principe fondamental stipulant que l'état futur ne dépend que de l'état présent et de l'action entreprise, indépendamment des états passés.

📖

pojęcia

Espace d'États

Ensemble complet de toutes les situations possibles dans lesquelles un agent peut se trouver lors de l'interaction avec l'environnement.

📖

pojęcia

Espace d'Actions

Ensemble de toutes les décisions ou contrôles qu'un agent peut appliquer à chaque état pour influencer l'environnement.

📖

pojęcia

Fonction de Transition

Modèle probabiliste définissant la probabilité de passer d'un état à un autre en exécutant une action spécifique, notée P(s'|s,a).

📖

pojęcia

Fonction de Récompense

Mapping définissant le retour immédiat que l'agent reçoit après avoir effectué une action dans un état particulier, noté R(s,a,s').

📖

pojęcia

Facteur d'Escompte

Paramètre γ ∈ [0,1] pondérant l'importance des récompenses futures par rapport aux récompenses immédiates dans le calcul du retour cumulé.

📖

pojęcia

Politique

Stratégie de décision définissant une distribution de probabilités sur les actions pour chaque état, notée π(a|s), spécifiant le comportement de l'agent.

📖

pojęcia

Fonction de Valeur d'État

Fonction V^π(s) estimant le retour attendu cumulé escompté en partant de l'état s et en suivant la politique π.

📖

pojęcia

Fonction de Valeur d'Action

Fonction Q^π(s,a) évaluant le retour attendu en exécutant l'action a depuis l'état s, puis en suivant la politique π.

📖

pojęcia

Équation de Bellman

Relation récursive fondamentale exprimant la fonction de valeur d'un état comme la récompense immédiate plus la valeur escomptée des états suivants.

📖

pojęcia

Politique Optimale

Politique π* qui maximise la fonction de valeur pour tous les états, garantissant le retour cumulé maximal sur le long terme.

📖

pojęcia

Itération de Valeur

Algorithme de programmation dynamique convergeant vers la fonction de valeur optimale par mises à jour successives basées sur l'équation de Bellman.

📖

pojęcia

Itération de Politique

Algorithme alternant entre évaluation de politique et amélioration de politique jusqu'à convergence vers la politique optimale.

📖

pojęcia

Retour Cumulé

Somme escomptée des récompenses futures obtenues en suivant une politique depuis un état ou une paire état-action donnée.

📖

pojęcia

Convergence

Propriété des algorithmes d'apprentissage garantissant l'atteinte de la solution optimale après un nombre fini ou infini d'itérations.

📖

pojęcia

Équation d'Optimalité de Bellman

Formulation spécifique de l'équation de Bellman pour la fonction de valeur optimale, servant de base aux algorithmes de résolution de MDP.

📖

pojęcia

Processus Décisionnel Markovien Partiellement Observable

Extension du MDP où l'agent n'observe qu'une partie de l'état réel, nécessitant une inférence basée sur les observations pour la prise de décision.

📖

pojęcia

Matrice de Transition

Représentation matricielle des probabilités de transition entre états pour chaque action possible dans un MDP à espace d'états discret.

Słownik AI

Processus Décisionnel Markovien

Propriété de Markov

Espace d'États

Espace d'Actions

Fonction de Transition

Fonction de Récompense

Facteur d'Escompte

Politique

Fonction de Valeur d'État

Fonction de Valeur d'Action

Équation de Bellman

Politique Optimale

Itération de Valeur

Itération de Politique

Retour Cumulé

Convergence

Équation d'Optimalité de Bellman

Processus Décisionnel Markovien Partiellement Observable

Matrice de Transition

Nie znaleziono wyników