🏠 Accueil
Benchmarks
📊 Tous les Benchmarks 🦖 Dinosaure v1 🦖 Dinosaure v2 ✅ To-Do List Apps 🎨 Pages Libres 🎯 FSACB - Showcase 🌍 Traduction
Modèles
🏆 Top 10 Modèles 🆓 Modèles Gratuits 📋 Tous les Modèles ⚙️ Modes Kilo Code
Ressources
💬 Prompts IA 📖 Glossaire IA 🔗 Liens Utiles

Glossaire IA

Le dictionnaire complet de l'Intelligence Artificielle

242
catégories
3 353
sous-catégories
40 780
termes
📖
termes

Clipping Function

Mécanisme PPO qui limite l'ampleur des mises à jour de politique en tronquant le rapport de probabilité entre la nouvelle et l'ancienne politique pour éviter des changements trop drastiques.

📖
termes

Trust Region

Zone de confiance dans l'espace des politiques où les mises à jour sont considérées comme sûres, définie par une contrainte sur la divergence KL entre les politiques successives.

📖
termes

Surrogate Objective

Fonction objectif modifiée utilisée dans PPO qui approxime l'objectif original tout en incorporant des contraintes de stabilité comme le clipping pour éviter la dégradation de la performance.

📖
termes

KL Divergence Penalty

Pénalité ajoutée à la fonction objectif PPO pour contrôler la divergence entre les politiques successives, adaptativement ajustée pour maintenir les mises à jour dans une région acceptable.

📖
termes

Mini-batch Updates

Processus d'optimisation PPO où les données collectées sont divisées en petits lots pour effectuer plusieurs passes de gradient, améliorant l'efficacité computationnelle et la stabilité.

📖
termes

Clip Range Parameter

Hyperparamètre epsilon dans PPO qui définit la largeur de la zone de clipping pour le rapport de probabilité, contrôlant directement la conservatisme des mises à jour de politique.

📖
termes

Value Function Clipping

Variante de PPO qui applique également un clipping à la fonction de valeur pour stabiliser l'apprentissage et prévenir les grandes variations dans les estimations de valeur.

📖
termes

Epoch Optimization

Processus PPO où les mêmes données d'expérience sont réutilisées pour plusieurs passes d'optimisation, améliorant l'utilisation des données collectées.

📖
termes

Normalized Advantage

Technique de normalisation des estimations d'avantage pour stabiliser l'entraînement en maintenant une échelle cohérente des gradients entre les mises à jour.

📖
termes

Experience Collection

Phase PPO où l'agent interagit avec l'environnement en suivant la politique actuelle pour collecter des transitions (état, action, récompense) utilisées pour l'optimisation.

📖
termes

Adaptive KL Penalty

Variante PPO qui ajuste dynamiquement la force de la pénalité KL en fonction de la divergence observée entre les politiques, assurant des mises à jour contrôlées.

🔍

Aucun résultat trouvé