قاموس الذكاء الاصطناعي
القاموس الكامل للذكاء الاصطناعي
Sequence Modeling
Approche qui formalise l'apprentissage par renforcement comme un problème de modélisation de séquences, où les états, actions et récompenses sont traités comme des tokens dans une séquence temporelle.
Temporal Difference Transformer
Variante de transformer qui intègre les principes de différence temporelle dans l'architecture d'attention, combinant apprentissage séquentiel et mise à jour bootstrap des estimations de valeur.
Trajectory Conditioning
Technique où le générateur de trajectoires est conditionné sur des segments de trajectoire partiels ou des objectifs spécifiques, permettant un contrôle précis du comportement généré.
Multi-step Prediction
Capacité des modèles transformer à prédire plusieurs étapes futures d'une trajectoire simultanément, améliorant la cohérence à long terme des séquences état-action-récompense générées.
Distributional RL
Extension de l'apprentissage par renforcement qui modélise la distribution complète des retours plutôt que seulement leur espérance, capturant l'incertitude dans les prédictions de trajectoire.
Attention-based Trajectory Embedding
Représentation vectorielle des trajectoires obtenue par mécanismes d'attention, capturant les dépendances temporelles complexes entre états, actions et récompenses successives.