🏠 Hem
Benchmarkar
📊 Alla benchmarkar 🦖 Dinosaur v1 🦖 Dinosaur v2 ✅ To-Do List-applikationer 🎨 Kreativa fria sidor 🎯 FSACB - Ultimata uppvisningen 🌍 Översättningsbenchmark
Modeller
🏆 Topp 10 modeller 🆓 Gratis modeller 📋 Alla modeller ⚙️ Kilo Code
Resurser
💬 Promptbibliotek 📖 AI-ordlista 🔗 Användbara länkar

AI-ordlista

Den kompletta ordlistan över AI

162
kategorier
2 032
underkategorier
23 060
termer
📖
termer

Processus de Décision Markovien (MDP)

Cadre mathématique pour modéliser la prise de décision dans des environnements où les résultats sont partiellement aléatoires et sous le contrôle d'un décideur. Un MDP est défini par des états, des actions, une fonction de transition et une fonction de récompense.

📖
termer

Processus de Décision Markovien Partiellement Observable (POMDP)

Généralisation du MDP où l'agent ne connaît pas l'état exact du système mais reçoit des observations probabilistes. Le POMDP modélise des environnements incertains où l'agent doit maintenir une croyance sur les états possibles.

📖
termer

Politique (Policy)

Stratégie qui définit l'action à entreprendre dans chaque état possible. Une politique optimale maximise la récompense cumulative attendue sur l'horizon de planification.

📖
termer

Facteur d'Escompte (Discount Factor)

Paramètre (généralement noté γ) qui pondère l'importance des récompenses futures par rapport aux récompenses immédiates. Une valeur proche de 1 favorise la planification à long terme.

📖
termer

Modèle d'Observation

Dans les POMDP, fonction probabiliste qui décrit la probabilité d'observer une information particulière étant donné l'état réel du système. Elle relie les états cachés aux observations perçues.

📖
termer

Itération de Valeur (Value Iteration)

Algorithme de résolution pour les MDP qui met à jour itérativement la fonction de valeur jusqu'à convergence vers la fonction de valeur optimale. Il garantit de trouver la politique optimale.

📖
termer

Itération de Politique (Policy Iteration)

Algorithme alternant entre évaluation d'une politique donnée et amélioration de cette politique. Il converge souvent plus rapidement que l'itération de valeur pour les MDP avec un petit espace d'actions.

📖
termer

Point de Selle (Saddle Point)

Concept dans la théorie des jeux et l'optimisation robuste représentant une solution d'équilibre où aucune stratégie ne peut être améliorée unilatéralement. Il est utilisé dans la planification contre des adversaires.

📖
termer

Planification en Ligne (Online Planning)

Approche où les décisions sont calculées à l'exécution plutôt qu'à l'avance. Elle est adaptée aux environnements dynamiques où l'état futur est difficile à prédire avec précision.

📖
termer

Arbre de Politique (Policy Tree)

Représentation d'une politique dans un POMDP comme un arbre de décision où les nœuds internes sont des tests d'observation et les feuilles sont des actions à exécuter. Il capture la nature conditionnelle des décisions.

📖
termer

Échantillonnage de Trajectoire (Trajectory Sampling)

Technique d'approximation pour résoudre les POMDP en explorant un sous-ensemble de trajectoires possibles plutôt que l'espace complet. Elle permet de traiter des problèmes de grande taille.

📖
termer

Programmation Dynamique Approximative (ADP)

Ensemble de méthodes pour résoudre des problèmes de commande optimale de grande dimension en utilisant des approximations de la fonction de valeur. Elle est essentielle pour les MDP avec des espaces d'états continus.

🔍

Inga resultat hittades