Apprentissage par Renforcement pour l'Optimisation

📖

términos

Politique de Décision

Stratégie ou mapping qui définit l'action à entreprendre dans chaque état possible, représentant le comportement de l'agent dans un processus d'apprentissage par renforcement.

📖

términos

Problème de Bandit Manchot

Problème d'optimisation séquentielle où un agent doit choisir parmi plusieurs options avec des récompenses inconnues pour maximiser la récompense cumulée sur le temps.

📖

términos

Récompense Cumulée

Somme des récompenses futures escomptées que l'agent cherche à maximiser, souvent calculée avec un facteur d'escompte pour donner moins de poids aux récompenses lointaines.

📖

términos

Algorithme SARSA

Algorithme d'apprentissage par renforcement en-politique qui met à jour les valeurs Q basées sur la séquence State-Action-Reward-State-Action, contrairement au Q-learning.

📖

términos

Deep Q-Network

Architecture de réseau neuronal profond utilisée pour approximer la fonction Q dans des espaces d'états complexes, combinant apprentissage profond et Q-learning.

📖

términos

Apprentissage par Renforcement Profond

Approche intégrant les réseaux de neurones profonds dans l'apprentissage par renforcement pour traiter des espaces d'états ou d'actions de haute dimension.

📖

términos

Politique Epsilon-Greedy

Stratégie de sélection d'action où avec probabilité ε l'agent explore (choisit une action aléatoire) et avec probabilité 1-ε il exploite (choisit la meilleure action connue).

📖

términos

Optimisation de Politique

Classe de méthodes en apprentissage par renforcement qui optimisent directement la politique sans passer par une fonction de valeur, utilisant souvent des techniques de gradient de politique.

📖

términos

Algorithme de Gradient de Politique

Méthode d'optimisation qui ajuste directement les paramètres de la politique en suivant le gradient de la récompense attendue par rapport à ces paramètres.

📖

términos

Apprentissage par Renforcement Multi-Agents

Extension de l'apprentissage par renforcement où plusieurs agents apprennent simultanément, souvent en compétition ou coopération, dans un environnement partagé.

📖

términos

Mémoire de Reprise d'Expérience

Structure de données stockant les transitions (état, action, récompense, prochain état) pour rééchantillonnage pendant l'entraînement, améliorant l'efficacité d'utilisation des données.

📖

términos

Algorithme Actor-Critic

Architecture combinant un acteur qui sélectionne les actions selon une politique et un critique qui évalue ces actions, permettant un apprentissage plus stable et efficace.

Glosario IA

Politique de Décision

Problème de Bandit Manchot

Récompense Cumulée

Algorithme SARSA

Deep Q-Network

Apprentissage par Renforcement Profond

Politique Epsilon-Greedy

Optimisation de Politique

Algorithme de Gradient de Politique

Apprentissage par Renforcement Multi-Agents

Mémoire de Reprise d'Expérience

Algorithme Actor-Critic

No se encontraron resultados