Glossaire IA
Le dictionnaire complet de l'Intelligence Artificielle
Apprentissage par imitation hors ligne
Paradigme d'apprentissage où l'agent apprend à imiter des comportements expert sans interaction avec l'environnement, en utilisant uniquement un ensemble fixe de démonstrations pré-enregistrées.
Ensemble de démonstrations
Collection statique de trajectoires ou d'exemples d'actions expertes utilisées comme unique source d'information pour l'apprentissage par imitation hors ligne.
Apprentissage par renforcement hors ligne
Approche d'apprentissage par renforcement qui utilise uniquement un ensemble de données préexistant sans interaction en temps réel avec l'environnement.
Échantillonnage d'importance
Technique statistique utilisée pour corriger le décalage entre la distribution des données et la politique cible en pondérant les échantillons selon leur probabilité relative.
Conservation de la distribution
Contrainte imposée à la politique apprise pour rester proche de la distribution des démonstrations, évitant ainsi les extrapolations risquées dans des régions inconnues.
Trajectoire hors ligne
Séquence complète d'états, d'actions et de récompenses enregistrée depuis une politique experte, constituant l'unité de base des données d'apprentissage.
Politique experte
Stratégie de référence ayant généré les démonstrations, servant de modèle à imiter et définissant le comportement optimal souhaité.
Estimateur hors ligne
Algorithme d'estimation de valeur ou de politique conçu spécifiquement pour fonctionner avec des données statiques sans nécessiter d'interaction avec l'environnement.
Correction de biais conservatrice
Approche de correction du biais qui privilégie la sécurité en pénalisant les actions sous-représentées dans les données de démonstration.
Apprentissage par imitation avec contraintes
Méthode intégrant des contraintes explicites sur la divergence entre la politique apprise et la distribution des données pour garantir la stabilité.
Ensemble de transitions
Structure de données stockant des tuples (état, action, état suivant, récompense) extraits des trajectoires expertes pour l'entraînement hors ligne.
Pondération d'importance adaptative
Technologie de pondération dynamique qui ajuste les poids d'importance en fonction de la confiance dans la qualité des données dans différentes régions de l'espace d'états.
Erreur de couverture
Mesure quantifiant l'inadéquation entre le support de la distribution des données et celui de la politique optimale dans l'apprentissage hors ligne.