🏠 Trang chủ
Benchmark
📊 Tất cả benchmark 🦖 Khủng long v1 🦖 Khủng long v2 ✅ Ứng dụng To-Do List 🎨 Trang tự do sáng tạo 🎯 FSACB - Trình diễn cuối cùng 🌍 Benchmark dịch thuật
Mô hình
🏆 Top 10 mô hình 🆓 Mô hình miễn phí 📋 Tất cả mô hình ⚙️ Kilo Code
Tài nguyên
💬 Thư viện prompt 📖 Thuật ngữ AI 🔗 Liên kết hữu ích

Thuật ngữ AI

Từ điển đầy đủ về Trí tuệ nhân tạo

162
danh mục
2.032
danh mục con
23.060
thuật ngữ
📖
thuật ngữ

Itération de la Valeur

Algorithme de programmation dynamique qui calcule itérativement la fonction de valeur optimale en appliquant l'opérateur de Bellman jusqu'à convergence. Cette méthode détermine la politique optimale sans évaluation explicite de politiques intermédiaires.

📖
thuật ngữ

Itération de la Politique

Algorithme composé de deux phases alternées : évaluation de la politique pour calculer la fonction de valeur, puis amélioration de la politique en rendant chaque état avide par rapport à cette valeur. La convergence est garantie en un nombre fini d'itérations pour les MDP finis.

📖
thuật ngữ

Processus de Décision Markovien

Framework mathématique pour modéliser la prise de décision séquentielle dans des environnements stochastiques avec la propriété de Markov. Un MDP est défini par un ensemble d'états, d'actions, une fonction de transition et une fonction de récompense.

📖
thuật ngữ

Fonction de Valeur

Fonction qui estime la récompense cumulative attendue à partir d'un état donné en suivant une politique spécifique. Elle représente l'utilité à long terme d'être dans un état particulier.

📖
thuật ngữ

Fonction de Valeur d'Action

Fonction qui évalue la récompense cumulative attendue en prenant une action spécifique dans un état donné, puis en suivant une politique. Elle permet de comparer directement la qualité des actions dans chaque état.

📖
thuật ngữ

Équation de Bellman

Équation récursive fondamentale qui exprime la relation entre la valeur d'un état et les valeurs des états successeurs. Elle formalise le principe d'optimalité et sert de base aux algorithmes de programmation dynamique.

📖
thuật ngữ

Principe d'Optimalité

Concept énoncé par Bellman stipulant qu'une politique optimale possède la propriété que, quel que soit l'état initial, les décisions restantes forment une politique optimale pour le sous-problème commençant à l'état suivant.

📖
thuật ngữ

Facteur d'Escompte

Paramètre gamma (γ) dans l'intervalle [0,1] qui pondère l'importance des récompenses futures par rapport aux récompenses immédiates. Un facteur proche de 1 favorise une planification à long terme tandis qu'un facteur proche de 0 privilégie les récompenses immédiates.

📖
thuật ngữ

Évaluation de la Politique

Processus itératif qui calcule la fonction de valeur pour une politique donnée en résolvant le système d'équations linéaires de Bellman. Cette étape est essentielle dans l'algorithme d'itération de la politique.

📖
thuật ngữ

Amélioration de la Politique

Étape qui met à jour une politique en choisissant, pour chaque état, l'action qui maximise la fonction de valeur d'action basée sur la politique actuelle. Cette approche gloutonne garantit une nouvelle politique au moins aussi bonne que la précédente.

📖
thuật ngữ

Matrice de Transition

Structure mathématique représentant les probabilités de transition entre états pour chaque action possible dans un MDP. Elle encode la dynamique stochastique de l'environnement et est essentielle aux calculs de programmation dynamique.

📖
thuật ngữ

Horizon Temporel

Nombre d'étapes sur lequel s'étend la prise de décision, pouvant être fini (épisodes de longueur fixe) ou infini (processus continu). La programmation dynamique s'adapte différemment selon le type d'horizon considéré.

📖
thuật ngữ

Opérateur de Bellman

Opérateur mathématique qui transforme une fonction de valeur en une nouvelle estimation en appliquant l'équation de Bellman. Il s'agit d'une contraction garantissant la convergence vers la fonction de valeur optimale.

📖
thuật ngữ

Politique Stationnaire

Politique qui ne dépend que de l'état actuel et non du temps ou de l'historique des états visités. Dans les MDP, il existe toujours une politique stationnaire optimale pour les problèmes à horizon infini.

📖
thuật ngữ

Résolution Exacte

Approche de programmation dynamique qui garantit de trouver la solution mathématiquement optimale d'un MDP, contrairement aux méthodes approximatives. Elle nécessite une connaissance complète du modèle de l'environnement.

📖
thuật ngữ

Erreur de Troncature

Différence entre la valeur exacte et la valeur estimée due à l'arrêt prématuré des itérations dans les algorithmes de programmation dynamique. Cette erreur diminue exponentiellement avec le nombre d'itérations supplémentaires.

🔍

Không tìm thấy kết quả