🏠 Strona Główna
Benchmarki
📊 Wszystkie benchmarki 🦖 Dinozaur v1 🦖 Dinozaur v2 ✅ Aplikacje To-Do List 🎨 Kreatywne wolne strony 🎯 FSACB - Ostateczny pokaz 🌍 Benchmark tłumaczeń
Modele
🏆 Top 10 modeli 🆓 Darmowe modele 📋 Wszystkie modele ⚙️ Kilo Code
Zasoby
💬 Biblioteka promptów 📖 Słownik AI 🔗 Przydatne linki

Słownik AI

Kompletny słownik sztucznej inteligencji

162
kategorie
2 032
podkategorie
23 060
pojęcia
📖
pojęcia

Processus Décisionnel Markovien

Framework mathématique formel modélisant les problèmes de décision séquentielle en environnement stochastique où les transitions d'états suivent la propriété de Markov.

📖
pojęcia

Propriété de Markov

Principe fondamental stipulant que l'état futur ne dépend que de l'état présent et de l'action entreprise, indépendamment des états passés.

📖
pojęcia

Espace d'États

Ensemble complet de toutes les situations possibles dans lesquelles un agent peut se trouver lors de l'interaction avec l'environnement.

📖
pojęcia

Espace d'Actions

Ensemble de toutes les décisions ou contrôles qu'un agent peut appliquer à chaque état pour influencer l'environnement.

📖
pojęcia

Fonction de Transition

Modèle probabiliste définissant la probabilité de passer d'un état à un autre en exécutant une action spécifique, notée P(s'|s,a).

📖
pojęcia

Fonction de Récompense

Mapping définissant le retour immédiat que l'agent reçoit après avoir effectué une action dans un état particulier, noté R(s,a,s').

📖
pojęcia

Facteur d'Escompte

Paramètre γ ∈ [0,1] pondérant l'importance des récompenses futures par rapport aux récompenses immédiates dans le calcul du retour cumulé.

📖
pojęcia

Politique

Stratégie de décision définissant une distribution de probabilités sur les actions pour chaque état, notée π(a|s), spécifiant le comportement de l'agent.

📖
pojęcia

Fonction de Valeur d'État

Fonction V^π(s) estimant le retour attendu cumulé escompté en partant de l'état s et en suivant la politique π.

📖
pojęcia

Fonction de Valeur d'Action

Fonction Q^π(s,a) évaluant le retour attendu en exécutant l'action a depuis l'état s, puis en suivant la politique π.

📖
pojęcia

Équation de Bellman

Relation récursive fondamentale exprimant la fonction de valeur d'un état comme la récompense immédiate plus la valeur escomptée des états suivants.

📖
pojęcia

Politique Optimale

Politique π* qui maximise la fonction de valeur pour tous les états, garantissant le retour cumulé maximal sur le long terme.

📖
pojęcia

Itération de Valeur

Algorithme de programmation dynamique convergeant vers la fonction de valeur optimale par mises à jour successives basées sur l'équation de Bellman.

📖
pojęcia

Itération de Politique

Algorithme alternant entre évaluation de politique et amélioration de politique jusqu'à convergence vers la politique optimale.

📖
pojęcia

Retour Cumulé

Somme escomptée des récompenses futures obtenues en suivant une politique depuis un état ou une paire état-action donnée.

📖
pojęcia

Convergence

Propriété des algorithmes d'apprentissage garantissant l'atteinte de la solution optimale après un nombre fini ou infini d'itérations.

📖
pojęcia

Équation d'Optimalité de Bellman

Formulation spécifique de l'équation de Bellman pour la fonction de valeur optimale, servant de base aux algorithmes de résolution de MDP.

📖
pojęcia

Processus Décisionnel Markovien Partiellement Observable

Extension du MDP où l'agent n'observe qu'une partie de l'état réel, nécessitant une inférence basée sur les observations pour la prise de décision.

📖
pojęcia

Matrice de Transition

Représentation matricielle des probabilités de transition entre états pour chaque action possible dans un MDP à espace d'états discret.

🔍

Nie znaleziono wyników