Glosario IA
El diccionario completo de la Inteligencia Artificial
Politique de Décision
Stratégie ou mapping qui définit l'action à entreprendre dans chaque état possible, représentant le comportement de l'agent dans un processus d'apprentissage par renforcement.
Problème de Bandit Manchot
Problème d'optimisation séquentielle où un agent doit choisir parmi plusieurs options avec des récompenses inconnues pour maximiser la récompense cumulée sur le temps.
Récompense Cumulée
Somme des récompenses futures escomptées que l'agent cherche à maximiser, souvent calculée avec un facteur d'escompte pour donner moins de poids aux récompenses lointaines.
Algorithme SARSA
Algorithme d'apprentissage par renforcement en-politique qui met à jour les valeurs Q basées sur la séquence State-Action-Reward-State-Action, contrairement au Q-learning.
Deep Q-Network
Architecture de réseau neuronal profond utilisée pour approximer la fonction Q dans des espaces d'états complexes, combinant apprentissage profond et Q-learning.
Apprentissage par Renforcement Profond
Approche intégrant les réseaux de neurones profonds dans l'apprentissage par renforcement pour traiter des espaces d'états ou d'actions de haute dimension.
Politique Epsilon-Greedy
Stratégie de sélection d'action où avec probabilité ε l'agent explore (choisit une action aléatoire) et avec probabilité 1-ε il exploite (choisit la meilleure action connue).
Optimisation de Politique
Classe de méthodes en apprentissage par renforcement qui optimisent directement la politique sans passer par une fonction de valeur, utilisant souvent des techniques de gradient de politique.
Algorithme de Gradient de Politique
Méthode d'optimisation qui ajuste directement les paramètres de la politique en suivant le gradient de la récompense attendue par rapport à ces paramètres.
Apprentissage par Renforcement Multi-Agents
Extension de l'apprentissage par renforcement où plusieurs agents apprennent simultanément, souvent en compétition ou coopération, dans un environnement partagé.
Mémoire de Reprise d'Expérience
Structure de données stockant les transitions (état, action, récompense, prochain état) pour rééchantillonnage pendant l'entraînement, améliorant l'efficacité d'utilisation des données.
Algorithme Actor-Critic
Architecture combinant un acteur qui sélectionne les actions selon une politique et un critique qui évalue ces actions, permettant un apprentissage plus stable et efficace.