Glossaire IA
Le dictionnaire complet de l'Intelligence Artificielle
Distribution des retours
Représentation probabiliste complète de la somme des récompenses futures actualisées, capturant l'ensemble des scénarios possibles plutôt qu'une seule valeur espérée.
Distribution quantile
Approche modélisant directement les quantiles de la distribution des retours pour capturer la variabilité et les queues de distribution des récompenses.
Risque conditionnel à la valeur
Mesure de risque robuste calculant l'espérance des retours dans la queue inférieure de la distribution, au-delà d'un quantile spécifié.
Distribution implicite
Représentation distributionnelle apprise indirectement sans paramètres explicites, souvent via des réseaux neuronaux génératifs ou des échantillonneurs.
Variance des retours
Mesure de dispersion quantifiant l'écart quadratique moyen des retours par rapport à leur espérance, indicateur clé du risque dans les décisions.
Entropie de la politique
Mesure d'incertitude sur les actions de l'agent, utilisée pour explorer l'espace d'états-actions et quantifier l'incertitude comportementale.
Borne de confiance
Intervalles statistiques garantissant avec une probabilité prédéfinie que la vraie valeur se situe dans la plage estimée, essentiels pour l'exploration sûre.
Distribution Cramer
Famille de distributions flexibles permettant de modéliser des asymétries et des queues épaisses dans les retours, au-delà des hypothèses gaussiennes.
Estimation par noyau
Méthode non-paramétrique pour estimer la densité de probabilité des retours en utilisant des fonctions noyau pour lisser les observations empiriques.
Propagation d'incertitude
Processus de transmission de l'incertitude à travers les étapes successives de l'apprentissage par renforcement, depuis les observations jusqu'aux décisions finales.
Approximation variationnelle
Méthode d'optimisation approximant les distributions complexes par des familles plus simples, minimisant la divergence entre distributions.
Distribution mélange
Combination pondérée de plusieurs distributions de base, permettant de capturer des comportements multimodaux dans les retours attendus.
Fonction de distribution cumulative
Fonction F(x) donnant la probabilité que le retour soit inférieur ou égal à x, caractérisant complètement la distribution des retours.
Compromis biais-variance
Dilemme fondamental entre la complexité du modèle (variance élevée, biais faible) et sa simplicité (variance faible, biais élevé) dans l'estimation distributionnelle.