🏠 Accueil
Benchmarks
📊 Tous les Benchmarks 🦖 Dinosaure v1 🦖 Dinosaure v2 ✅ To-Do List Apps 🎨 Pages Libres 🎯 FSACB - Showcase 🌍 Traduction
Modèles
🏆 Top 10 Modèles 🆓 Modèles Gratuits 📋 Tous les Modèles ⚙️ Modes Kilo Code
Ressources
💬 Prompts IA 📖 Glossaire IA 🔗 Liens Utiles

Glossaire IA

Le dictionnaire complet de l'Intelligence Artificielle

242
catégories
3 353
sous-catégories
40 780
termes
📖
termes

Distribution d'état-actions

Représentation probabiliste de la fonction de valeur Q(s,a) qui modélise la distribution complète des retours possibles plutôt que seulement leur espérance mathématique.

📖
termes

Modèle de transition distributionnel

Modèle d'apprentissage par renforcement basé sur modèle qui capture l'incertitude dans les transitions d'états en modélisant des distributions de probabilité sur les états suivants.

📖
termes

Modèle de dynamique probabiliste

Modèle prédictif dans le RL basé sur modèle qui génère des distributions de probabilité sur les états suivants ou les récompenses plutôt que des prédictions déterministes.

📖
termes

Incertitude épistémique en RL

Incertitude due au manque de connaissances sur le modèle de l'environnement, modélisée par des distributions dans les approches distributionnelles de RL basé sur modèle.

📖
termes

Incertitude aléatoire en RL

Incertitude inhérente à l'environnement qui ne peut être réduite même avec plus de données, capturée par les distributions dans les modèles de RL distributionnels.

📖
termes

Gradient de politique distributionnel

Extension des méthodes de gradient de politique qui optimise directement sur la distribution des retours plutôt que sur leur espérance, permettant des politiques sensibles au risque.

📖
termes

RL sensible au risque

Approche d'apprentissage par renforcement qui utilise des informations distributionnelles pour optimiser des métriques de risque comme CVaR ou l'écart-type au lieu de l'espérance seule.

📖
termes

Ensembles de modèles en RL distributionnel

Technique utilisant plusieurs modèles appris indépendamment pour capturer l'incertitude épistémique dans les approches distributionnelles de RL basé sur modèle.

📖
termes

Modèles de distribution basés sur particules

Approche de modélisation distributionnelle qui représente les distributions par un ensemble de particules pondérées, utile pour les transitions complexes dans le RL basé sur modèle.

📖
termes

Distance de Wasserstein en RL distributionnel

Métrique utilisée pour mesurer la dissimilarité entre distributions dans l'opérateur de Bellman distributionnel, offrant de meilleures propriétés de convergence que la distance KL.

📖
termes

Matching de moments en RL distributionnel

Technique d'optimisation qui ajuste les paramètres pour faire correspondre les moments statistiques (moyenne, variance, etc.) des distributions prédites et cibles.

📖
termes

Inférence variationnelle en RL

Méthode d'approximation de distributions complexes en optimisant une famille de distributions plus simples, appliquée dans le RL basé sur modèle pour gérer l'incertitude.

📖
termes

RL bayésien basé sur modèle

Approche qui maintient une distribution sur les modèles possibles de l'environnement, utilisant des méthodes bayésiennes pour quantifier et exploiter l'incertitude épistémique.

📖
termes

Opérateur de Bellman distributionnel

Extension de l'opérateur de Bellman classique qui opère sur des distributions de retours plutôt que sur des valeurs scalaires, préservant la structure distributionnelle.

📖
termes

Distributions dépendantes de l'horizon

Concept dans le RL distributionnel où la distribution des retours change avec l'horizon temporel, capturant l'évolution de l'incertitude sur différentes échelles de temps.

📖
termes

Projection atomique catégorique

Opération mathématique utilisée dans C51 qui projette la distribution cible sur le support d'atomes prédéfini pour maintenir la cohérence des distributions.

📖
termes

Propagation d'incertitude distributionnelle

Processus dans le RL basé sur modèle où l'incertitude des prédictions du modèle est propagée à travers les étapes de planification pour évaluer la robustesse des politiques.

🔍

Aucun résultat trouvé