AI 용어집
인공지능 완전 사전
Prédiction de trajectoire multi-pas
Technique consistant à anticiper une séquence continue d'états futurs sur plusieurs pas temporels pour évaluer les conséquences long terme d'une action avant son exécution réelle.
Arbre de recherche Monte Carlo
Algorithme d'exploration arborescente utilisant des simulations aléatoires pour évaluer les trajectoires futures possibles depuis un état donné, optimisant la sélection d'actions.
Planification par anticipation
Processus d'évaluation séquentielle des actions futures en utilisant le modèle appris pour sélectionner la politique optimale avant toute interaction avec l'environnement réel.
Modèle de dynamique environnementale
Réseau neuronal entraîné à capturer les règles physiques et les changements d'état de l'environnement pour prédire précisément les conséquences des actions de l'agent.
Imagination de modèle
Capacité du système à générer mentalement des scénarios et trajectoires alternatives en utilisant son modèle interne de l'environnement sans interaction physique.
Rollout d'anticipation
Simulation complète d'une séquence d'actions depuis un état initial en utilisant le modèle appris pour évaluer la récompense cumulative attendue.
Apprentissage par essai virtuel
Paradigme où l'agent s'améliore principalement à travers des expériences simulées dans son modèle interne plutôt que par interactions directes avec l'environnement.
Modèle génératif de trajectoires
Architecture de deep learning générant des distributions de trajectoires possibles plutôt qu'une prédiction déterministe, capturant la nature stochastique de l'environnement.
Exploration par simulation
Stratégie d'exploration où l'agent découvre de nouvelles politiques en simulant massivement des scénarios dans son modèle avant de tester les plus prometteurs en réalité.
Prédiction d'état-action
Modèle prédisant directement l'état suivant s(t+1) en fonction de l'état actuel s(t) et de l'action a(t), formant l'équation de transition fondamentale.
Buffer d'expérience imaginaire
Structure de données stockant les trajectoires simulées générées par le modèle pour l'entraînement, complétant l'expérience réelle collectée dans l'environnement.
Apprentissage de modèle mondial
Approche où un unique modèle apprend la dynamique complète de l'environnement, partagé entre toutes les tâches et politiques pour une meilleure généralisation.
Réseau de prédiction de trajectoire
Architecture neuronale spécialisée dans la prédiction de séquences d'états futurs, souvent basée sur des RNN ou Transformers pour capturer les dépendances temporelles.
Validation de modèle
Processus systématique d'évaluation de la précision prédictive du modèle sur des données held-out pour garantir la fiabilité des trajectoires simulées.
Génération de contre-factuels
Technique créant des trajectoires alternatives hypothétiques pour comprendre l'impact de différentes décisions et améliorer la compréhension causale du modèle.