Glossaire IA
Le dictionnaire complet de l'Intelligence Artificielle
Apprentissage par Renforcement Inverse
Méthode d'apprentissage où l'agent infère la fonction de récompense à partir des démonstrations d'experts plutôt que de recevoir des récompenses explicites.
Maximum Entropy IRL
Variante de l'IRL qui suppose que l'expert suit la distribution de probabilité de plus grande entropie parmi toutes les politiques optimales.
Apprentissage Comportemental
Approche d'apprentissage supervisé qui apprend directement à imiter les actions de l'expert sans inférer explicitement la fonction de récompense.
Trajectoire d'Expert
Séquence d'états et d'actions observées chez un expert, représentant une solution optimale ou quasi-optimale du problème.
Équivalence de Politique
Principe selon lequel plusieurs fonctions de récompense peuvent conduire à la même politique optimale, créant une ambiguïté dans l'IRL.
Apprentissage par Renforcement Inverse Bayésien
Approche IRL utilisant l'inférence bayésienne pour estimer une distribution sur les fonctions de récompense possibles.
Coût de Préférence
Transformation de la fonction de récompense en fonction de coût, où l'agent apprend à minimiser le coût total tout en suivant les démonstrations.
Apprentissage par Renforcement Inverse Adversarial
Méthode IRL utilisant un jeu adversarial où un générateur apprend la politique et un discriminateur distingue les trajectoires expertes.
Apprentissage par Renforcement Inverse Actif
Variante de l'IRL où l'agent peut interroger l'expert pour obtenir des démonstrations supplémentaires et réduire l'incertitude.
Inférence de Fonction Objectif
Processus mathématique de déduction de la fonction objectif sous-jacente à partir des observations du comportement de l'expert.
Biais d'Imitation
Tendance de l'agent à sur-imiter les actions de l'expert sans comprendre l'intention sous-jacente, conduisant à des généralisations médiocres.
Apprentissage par Renforcement avec Retour d'Expert
Combinaison de RL et IRL où un modèle entraîne d'abord sur des données expertes, puis est affiné avec du retour humain.
Fonction Caractéristique
Fonction qui mappe les états-actions à un espace de caractéristiques, utilisée pour représenter la fonction de récompense de manière linéaire.
Apprentissage par Renforcement Inverse Multi-tâches
Extension de l'IRL où plusieurs tâches sont apprises simultanément en partageant des connaissances entre les fonctions de récompense.