AI 詞彙表
人工智能完整詞典
Politique de Planification (Planning Policy)
Fonction ou stratégie qui mappe chaque état de l'environnement à une action spécifique, définissant le comportement de l'agent pour atteindre des objectifs de planification optimaux.
Récompense de Forme (Reward Shaping)
Technique de conception de récompenses qui modifie la fonction de récompense originale pour guider plus efficacement l'agent vers des comportements de planification souhaitables.
Planification Hiérarchique par RL (Hierarchical RL Planning)
Approche où la politique de planification est décomposée en une hiérarchie de sous-tâches ou sous-politiques, permettant de résoudre des problèmes de planification complexes de manière plus efficace.
Méta-Apprentissage pour la Planification (Meta-Learning for Planning)
Paradigme où l'agent apprend à apprendre des politiques de planification adaptatives qui peuvent rapidement s'ajuster à de nouveaux environnements ou objectifs de planification.
Planification Multi-Agents par RL (Multi-Agent RL Planning)
Extension du RL à des scénarios où plusieurs agents apprennent simultanément des politiques de planification, nécessitant la prise en compte des interactions et de la coopération/compétition entre agents.
Planification Robuste par RL (Robust RL Planning)
Approche visant à apprendre des politiques de planification qui maintiennent leurs performances face aux incertitudes et variations de l'environnement ou du modèle de dynamique.
Transfert d'Apprentissage en Planification RL (Transfer Learning in RL Planning)
Technique permettant de réutiliser les connaissances ou politiques apprises dans un contexte de planification pour accélérer l'apprentissage dans un nouveau contexte similaire.
Planification par RL avec Contraintes (Constrained RL Planning)
Formulation de RL où l'agent doit optimiser sa politique de planification tout en respectant des contraintes de sécurité, de ressources ou d'autres limitations spécifiques au domaine.
基于模型的强化学习(Model-Based RL)
智能体学习或使用显式环境动态模型来改进其规划与决策的方法,与无模型强化学习相对。
连续强化学习规划(Continuous RL Planning)
强化学习在规划问题中的专门应用,其中状态空间和动作空间是连续的,需要特定的近似技术如演员-评论家方法。
规划回合(Planning Episode)
智能体与环境从初始状态到终止状态的完整交互序列,构成规划策略的学习单元。
模仿学习用于强化学习规划(Imitation Learning for RL Planning)
智能体通过模仿专家演示来学习规划策略的方法,常用于初始化或引导强化学习过程。
强化学习策略优化(Policy Optimization)
一类直接优化规划策略参数以最大化期望回报的强化学习算法,包括REINFORCE或PPO等方法。