Apprentissage par Renforcement pour l'Optimisation

📖

termes

Politique de Décision

Stratégie ou mapping qui définit l'action à entreprendre dans chaque état possible, représentant le comportement de l'agent dans un processus d'apprentissage par renforcement.

📖

termes

Problème de Bandit Manchot

Problème d'optimisation séquentielle où un agent doit choisir parmi plusieurs options avec des récompenses inconnues pour maximiser la récompense cumulée sur le temps.

📖

termes

Récompense Cumulée

Somme des récompenses futures escomptées que l'agent cherche à maximiser, souvent calculée avec un facteur d'escompte pour donner moins de poids aux récompenses lointaines.

📖

termes

Algorithme SARSA

Algorithme d'apprentissage par renforcement en-politique qui met à jour les valeurs Q basées sur la séquence State-Action-Reward-State-Action, contrairement au Q-learning.

📖

termes

Deep Q-Network

Architecture de réseau neuronal profond utilisée pour approximer la fonction Q dans des espaces d'états complexes, combinant apprentissage profond et Q-learning.

📖

termes

Apprentissage par Renforcement Profond

Approche intégrant les réseaux de neurones profonds dans l'apprentissage par renforcement pour traiter des espaces d'états ou d'actions de haute dimension.

📖

termes

Politique Epsilon-Greedy

Stratégie de sélection d'action où avec probabilité ε l'agent explore (choisit une action aléatoire) et avec probabilité 1-ε il exploite (choisit la meilleure action connue).

📖

termes

Optimisation de Politique

Classe de méthodes en apprentissage par renforcement qui optimisent directement la politique sans passer par une fonction de valeur, utilisant souvent des techniques de gradient de politique.

📖

termes

Algorithme de Gradient de Politique

Méthode d'optimisation qui ajuste directement les paramètres de la politique en suivant le gradient de la récompense attendue par rapport à ces paramètres.

📖

termes

Apprentissage par Renforcement Multi-Agents

Extension de l'apprentissage par renforcement où plusieurs agents apprennent simultanément, souvent en compétition ou coopération, dans un environnement partagé.

📖

termes

Mémoire de Reprise d'Expérience

Structure de données stockant les transitions (état, action, récompense, prochain état) pour rééchantillonnage pendant l'entraînement, améliorant l'efficacité d'utilisation des données.

📖

termes

Algorithme Actor-Critic

Architecture combinant un acteur qui sélectionne les actions selon une politique et un critique qui évalue ces actions, permettant un apprentissage plus stable et efficace.

Glossaire IA

Politique de Décision

Problème de Bandit Manchot

Récompense Cumulée

Algorithme SARSA

Deep Q-Network

Apprentissage par Renforcement Profond

Politique Epsilon-Greedy

Optimisation de Politique

Algorithme de Gradient de Politique

Apprentissage par Renforcement Multi-Agents

Mémoire de Reprise d'Expérience

Algorithme Actor-Critic

Aucun résultat trouvé