Glossaire IA
Le dictionnaire complet de l'Intelligence Artificielle
Distribution d'état-actions
Représentation probabiliste de la fonction de valeur Q(s,a) qui modélise la distribution complète des retours possibles plutôt que seulement leur espérance mathématique.
Modèle de transition distributionnel
Modèle d'apprentissage par renforcement basé sur modèle qui capture l'incertitude dans les transitions d'états en modélisant des distributions de probabilité sur les états suivants.
Modèle de dynamique probabiliste
Modèle prédictif dans le RL basé sur modèle qui génère des distributions de probabilité sur les états suivants ou les récompenses plutôt que des prédictions déterministes.
Incertitude épistémique en RL
Incertitude due au manque de connaissances sur le modèle de l'environnement, modélisée par des distributions dans les approches distributionnelles de RL basé sur modèle.
Incertitude aléatoire en RL
Incertitude inhérente à l'environnement qui ne peut être réduite même avec plus de données, capturée par les distributions dans les modèles de RL distributionnels.
Gradient de politique distributionnel
Extension des méthodes de gradient de politique qui optimise directement sur la distribution des retours plutôt que sur leur espérance, permettant des politiques sensibles au risque.
RL sensible au risque
Approche d'apprentissage par renforcement qui utilise des informations distributionnelles pour optimiser des métriques de risque comme CVaR ou l'écart-type au lieu de l'espérance seule.
Ensembles de modèles en RL distributionnel
Technique utilisant plusieurs modèles appris indépendamment pour capturer l'incertitude épistémique dans les approches distributionnelles de RL basé sur modèle.
Modèles de distribution basés sur particules
Approche de modélisation distributionnelle qui représente les distributions par un ensemble de particules pondérées, utile pour les transitions complexes dans le RL basé sur modèle.
Distance de Wasserstein en RL distributionnel
Métrique utilisée pour mesurer la dissimilarité entre distributions dans l'opérateur de Bellman distributionnel, offrant de meilleures propriétés de convergence que la distance KL.
Matching de moments en RL distributionnel
Technique d'optimisation qui ajuste les paramètres pour faire correspondre les moments statistiques (moyenne, variance, etc.) des distributions prédites et cibles.
Inférence variationnelle en RL
Méthode d'approximation de distributions complexes en optimisant une famille de distributions plus simples, appliquée dans le RL basé sur modèle pour gérer l'incertitude.
RL bayésien basé sur modèle
Approche qui maintient une distribution sur les modèles possibles de l'environnement, utilisant des méthodes bayésiennes pour quantifier et exploiter l'incertitude épistémique.
Opérateur de Bellman distributionnel
Extension de l'opérateur de Bellman classique qui opère sur des distributions de retours plutôt que sur des valeurs scalaires, préservant la structure distributionnelle.
Distributions dépendantes de l'horizon
Concept dans le RL distributionnel où la distribution des retours change avec l'horizon temporel, capturant l'évolution de l'incertitude sur différentes échelles de temps.
Projection atomique catégorique
Opération mathématique utilisée dans C51 qui projette la distribution cible sur le support d'atomes prédéfini pour maintenir la cohérence des distributions.
Propagation d'incertitude distributionnelle
Processus dans le RL basé sur modèle où l'incertitude des prédictions du modèle est propagée à travers les étapes de planification pour évaluer la robustesse des politiques.