AI 词汇表
人工智能完整词典
200
个类别
2,608
个子类别
30,011
个术语
个术语
蒙特卡洛树搜索 (MCTS)
一种启发式搜索算法,用于在决策过程中做出决策,通过构建部分搜索树并依赖随机模拟来评估节点的潜力。
个术语
基于树的搜索规划
使用树状结构探索可能的未来动作序列的过程,以确定从给定状态开始应遵循的最佳策略。
个术语
学习的转换模型
一种函数或神经网络,经过训练以根据当前状态和所选动作预测环境的下一个状态,用于模拟搜索树的分支。
个术语
上置信界 (UCB1)
在MCTS的选择阶段使用的平衡利用和探索的公式,用于选择最有希望的子节点,偏向于高平均值和很少被探索的动作。
个术语
节点扩展
MCTS的一个阶段,在此阶段从选中的节点向搜索树添加一个新的子节点,表示尚未探索的状态-动作。
个术语
状态表示
环境状态的编码,通常以张量或向量的形式出现,作为转换模型和奖励模型的输入用于规划。
个术语
增强想象智能体 (I2A)
一种智能体架构,集成了基于MCTS的规划模块和学习模型,使智能体能够在做出决定之前想象和评估其动作的未来后果。
个术语
价值引导的树搜索
MCTS的一种变体,其中模拟(推演)阶段被直接使用价值神经网络估计节点回报所取代,从而加速搜索过程。
个术语
根策略函数
从根状态出发的可能动作的概率分布,通常来自神经网络,可用于偏置MCTS的选择阶段并加速向最优动作的收敛。
个术语
在线规划
一种方法,在每个时间步都从当前状态开始进行树搜索,以确定最佳即时行动,与预计算的离线规划相反。
个术语
非对称搜索树
MCTS的一个特征,树以非均匀方式发展,深化最有希望的分支而忽略其他分支,使其对于大型动作空间非常有效。
个术语
基于模型的强化学习
一种人工智能范式,其中智能体学习其环境模型,然后在规划过程中(如MCTS)使用此模型来改进其策略,而无需每次更新都与环境进行实际交互。
🔍