Słownik AI
Kompletny słownik sztucznej inteligencji
Fonction Q
Fonction d'évaluation qui quantifie la qualité d'une action spécifique dans un état particulier en termes de récompenses futures attendues.
Décomposition de la fonction Q
Technique séparant la fonction Q(s,a) en deux composantes : la valeur de l'état V(s) et l'avantage A(s,a) pour améliorer l'efficacité de l'apprentissage.
Avantage
Mesure quantifiant combien une action est meilleure que la moyenne des actions possibles dans un état donné, défini comme A(s,a) = Q(s,a) - V(s).
Architecture dueling
Structure de réseau de neurones avec deux flux distincts : un pour estimer V(s) et un autre pour estimer A(s,a), recombinés pour obtenir Q(s,a).
Estimateur de valeur
Partie de l'architecture dueling responsable de l'estimation de la valeur intrinsèque de chaque état indépendamment des actions possibles.
Estimateur d'avantage
Composant du réseau dueling calculant l'avantage relatif de chaque action par rapport à la valeur moyenne des actions dans un état.
Réduction de variance
Bénéfice principal de la décomposition Q où la séparation valeur/avantage stabilise l'apprentissage en réduisant la variance des estimations.
Stabilité de l'apprentissage
Caractéristique d'un algorithme d'apprentissage qui converge de manière prévisible sans oscillations excessives ou divergence durant l'entraînement.
États-actions
Paires fondamentales en apprentissage par renforcement représentant une situation spécifique et le choix d'action associé dans l'environnement.
Agrégation d'avantages
Opération combinant les sorties des estimateurs de valeur et d'avantage pour reconstruire la fonction Q finale en respectant l'identité Q(s,a) = V(s) + A(s,a).
Normalisation d'avantages
Technique de soustraction de la moyenne des avantages pour garantir l'identifiabilité entre V(s) et A(s,a) dans l'architecture dueling.
Partage de représentation
Principe où les couches convolutives initiales extrayent des caractéristiques communes utilisées par les estimateurs de valeur et d'avantage.
Optimisation non-convexe
Défi mathématique dans l'apprentissage par renforcement où la surface de perte contient de nombreux optima locaux, rendant la convergence difficile.
Efficacité d'échantillonnage
Capacité d'un algorithme à apprendre efficacement avec un nombre limité d'expériences, améliorée par la décomposition valeur/avantage.
Propagation de gradients
Mécanisme par lequel les erreurs de prédiction sont rétropropagées à travers le réseau pour ajuster simultanément les estimateurs V(s) et A(s,a).