🏠 Accueil
Benchmarks
📊 Tous les Benchmarks 🦖 Dinosaure v1 🦖 Dinosaure v2 ✅ To-Do List Apps 🎨 Pages Libres 🎯 FSACB - Showcase 🌍 Traduction
Modèles
🏆 Top 10 Modèles 🆓 Modèles Gratuits 📋 Tous les Modèles ⚙️ Modes Kilo Code
Ressources
💬 Prompts IA 📖 Glossaire IA 🔗 Liens Utiles

Glossaire IA

Le dictionnaire complet de l'Intelligence Artificielle

242
catégories
3 353
sous-catégories
40 780
termes
📖
termes

Policy Gradient Stochastique

Méthode d'optimisation directe de la politique en utilisant des estimations de gradient basées sur des trajectoires échantillonnées, permettant de gérer des espaces d'action continus et discrets.

📖
termes

Actor-Critic Stochastique

Architecture hybride combinant un acteur stochastique apprenant la politique et un critique estimant la fonction de valeur pour réduire la variance des estimations de gradient.

📖
termes

Natural Gradient

Méthode d'optimisation suivant la géométrie de l'espace des paramètres définie par la métrique de Fisher, adaptée naturellement aux problèmes stochastiques en RL.

📖
termes

Stochastic Gradient Descent

Algorithme d'optimisation itératif utilisant des estimations bruitées du gradient calculées sur des mini-batchs de données pour mettre à jour les paramètres du modèle.

📖
termes

Robbins-Monro Algorithm

Fondateur des méthodes d'approximation stochastique, utilisant un pas d'apprentissage décroissant pour garantir la convergence vers des points stationnaires dans un environnement bruité.

📖
termes

Stochastic Approximation

Cadre théorique pour l'optimisation en présence de bruit, fournissant des garanties de convergence pour les algorithmes d'apprentissage utilisant des estimations bruitées.

📖
termes

Importance Sampling en RL

Technique permettant d'utiliser des données collectées avec une ancienne politique pour entraîner une nouvelle politique, en pondérant les échantillons par le rapport des densités.

📖
termes

KL Divergence Regularization

Contrainte régularisant l'éloignement entre la politique actuelle et précédente via la divergence de Kullback-Leibler, prévenant les changements de politique trop abrupts.

📖
termes

Noise Injection in Policy

Stratégie d'exploration ajoutant du bruit stochastique directement aux paramètres ou aux sorties de la politique pour maintenir l'exploration pendant l'optimisation.

📖
termes

Stochastic Neural Networks in RL

Réseaux de neurones intégrant de l'incertitude dans leurs paramètres ou activations, utilisés comme politiques stochastiques pour modéliser des distributions complexes d'actions.

🔍

Aucun résultat trouvé