🏠 Accueil
Benchmarks
📊 Tous les Benchmarks 🦖 Dinosaure v1 🦖 Dinosaure v2 ✅ To-Do List Apps 🎨 Pages Libres 🎯 FSACB - Showcase 🌍 Traduction
Modèles
🏆 Top 10 Modèles 🆓 Modèles Gratuits 📋 Tous les Modèles ⚙️ Modes Kilo Code
Ressources
💬 Prompts IA 📖 Glossaire IA 🔗 Liens Utiles

Glossaire IA

Le dictionnaire complet de l'Intelligence Artificielle

242
catégories
3 353
sous-catégories
40 780
termes
📖
termes

Apprentissage par imitation hors ligne

Paradigme d'apprentissage où l'agent apprend à imiter des comportements expert sans interaction avec l'environnement, en utilisant uniquement un ensemble fixe de démonstrations pré-enregistrées.

📖
termes

Ensemble de démonstrations

Collection statique de trajectoires ou d'exemples d'actions expertes utilisées comme unique source d'information pour l'apprentissage par imitation hors ligne.

📖
termes

Apprentissage par renforcement hors ligne

Approche d'apprentissage par renforcement qui utilise uniquement un ensemble de données préexistant sans interaction en temps réel avec l'environnement.

📖
termes

Échantillonnage d'importance

Technique statistique utilisée pour corriger le décalage entre la distribution des données et la politique cible en pondérant les échantillons selon leur probabilité relative.

📖
termes

Conservation de la distribution

Contrainte imposée à la politique apprise pour rester proche de la distribution des démonstrations, évitant ainsi les extrapolations risquées dans des régions inconnues.

📖
termes

Trajectoire hors ligne

Séquence complète d'états, d'actions et de récompenses enregistrée depuis une politique experte, constituant l'unité de base des données d'apprentissage.

📖
termes

Politique experte

Stratégie de référence ayant généré les démonstrations, servant de modèle à imiter et définissant le comportement optimal souhaité.

📖
termes

Estimateur hors ligne

Algorithme d'estimation de valeur ou de politique conçu spécifiquement pour fonctionner avec des données statiques sans nécessiter d'interaction avec l'environnement.

📖
termes

Correction de biais conservatrice

Approche de correction du biais qui privilégie la sécurité en pénalisant les actions sous-représentées dans les données de démonstration.

📖
termes

Apprentissage par imitation avec contraintes

Méthode intégrant des contraintes explicites sur la divergence entre la politique apprise et la distribution des données pour garantir la stabilité.

📖
termes

Ensemble de transitions

Structure de données stockant des tuples (état, action, état suivant, récompense) extraits des trajectoires expertes pour l'entraînement hors ligne.

📖
termes

Pondération d'importance adaptative

Technologie de pondération dynamique qui ajuste les poids d'importance en fonction de la confiance dans la qualité des données dans différentes régions de l'espace d'états.

📖
termes

Erreur de couverture

Mesure quantifiant l'inadéquation entre le support de la distribution des données et celui de la politique optimale dans l'apprentissage hors ligne.

🔍

Aucun résultat trouvé