🏠 Accueil
Benchmarks
📊 Tous les Benchmarks 🦖 Dinosaure v1 🦖 Dinosaure v2 ✅ To-Do List Apps 🎨 Pages Libres 🎯 FSACB - Showcase 🌍 Traduction
Modèles
🏆 Top 10 Modèles 🆓 Modèles Gratuits 📋 Tous les Modèles ⚙️ Modes Kilo Code
Ressources
💬 Prompts IA 📖 Glossaire IA 🔗 Liens Utiles

Glossaire IA

Le dictionnaire complet de l'Intelligence Artificielle

242
catégories
3 353
sous-catégories
40 780
termes
📖
termes

Apprentissage par Renforcement Model-Based

Approche d'apprentissage par renforcement où l'agent construit un modèle interne de l'environnement pour simuler des transitions et générer des expériences sans interaction réelle.

📖
termes

Dyna-Q

Algorithme hybride d'apprentissage par renforcement combinant apprentissage direct depuis l'expérience réelle et planification utilisant un modèle appris pour générer des expériences simulées supplémentaires.

📖
termes

Apprentissage direct

Processus de mise à jour des valeurs d'action ou de politique basé uniquement sur les expériences réelles accumulées lors de l'interaction avec l'environnement.

📖
termes

Planification dans l'apprentissage par renforcement

Utilisation d'un modèle environnemental pour générer des expériences synthétiques et améliorer la politique sans interactions supplémentaires avec l'environnement réel.

📖
termes

Modèle de transition

Composant du modèle d'environnement prédictionnel qui estime la distribution de probabilité des états suivants étant donné un état actuel et une action.

📖
termes

Modèle de récompense

Fonction apprise qui prédit la récompense attendue pour chaque paire état-action dans un environnement d'apprentissage par renforcement.

📖
termes

Expériences simulées

Échantillons générés artificiellement par le modèle interne de l'environnement pour accélérer l'apprentissage sans nécessiter d'interactions réelles supplémentaires.

📖
termes

Mise à jour de la valeur

Processus itératif d'ajustement des estimations de valeur d'action Q(s,a) basé sur les récompenses observées et les valeurs des états futurs selon l'équation de Bellman.

📖
termes

Mémoire d'expériences

Structure de données stockant les triplets (état, action, récompense, état_suivant) pour permettre les mises à jour répétées durant la phase de planification.

📖
termes

Dyna-Q+

Extension de Dyna-Q intégrant un mécanisme d'exploration basé sur le temps écoulé depuis la dernière visite d'état-action pour détecter et s'adapter aux changements environnementaux.

📖
termes

Priorité de balayage

Variante de Dyna-Q où les mises à jour sont priorisées selon leur impact potentiel sur les valeurs, optimisant l'efficacité computationnelle de la phase de planification.

📖
termes

Effet de planification

Accélération de l'apprentissage observée lorsque le nombre d'étapes de planification par étape réelle augmente, jusqu'à un point de rendement décroissant.

📖
termes

Convergence de l'algorithme

Propriété garantissant que les estimations de valeur de Dyna-Q convergent vers les valeurs optimales sous certaines conditions de modèle exact et de visite infinie.

📖
termes

Erreur de modèle

Disparance entre le comportement réel de l'environnement et les prédictions du modèle appris, pouvant dégrader les performances si non maîtrisée.

📖
termes

Complexité computationnelle

Coût computationnel de Dyna-Q dépendant linéairement de la taille de la mémoire d'expériences et du nombre de mises à jour de planification par itération.

📖
termes

Généralisation de modèle

Capacité d'extrapoler les prédictions du modèle à des états-actions non observés, souvent réalisée par des réseaux de neurones ou d'autres approximateurs de fonction.

📖
termes

Échantillonnage de l'espace d'états

Stratégie de sélection des expériences simulées depuis la mémoire durant la phase de planification, influençant l'efficacité d'apprentissage de Dyna-Q.

📖
termes

Fonction de planification

Composant algorithmique effectuant des mises à jour répétées sur les expériences stockées pour raffiner les estimations de valeur sans nouvelle interaction environnementale.

📖
termes

Vitesse d'apprentissage adaptative

Mécanisme d'ajustement dynamique du taux d'apprentissage dans Dyna-Q pour optimiser la convergence compte tenu de la variance des expériences réelles et simulées.

🔍

Aucun résultat trouvé