AI 詞彙表
人工智能完整詞典
200
類別
2,608
子類別
30,011
術語
子類別
多臂强盗问题
一个基本问题,其中智能体从多个具有随机奖励的选项中进行选择,以最大化累积收益。
16 術語
子類別
情境化多臂老虎机
多臂老虎机的扩展,其中奖励取决于可观察的情境,允许个性化的自适应决策。
15 術語
子類別
组合强盗问题
一种变体,智能体需在复杂约束和奖励条件下同时选择动作组合。
16 術語
子類別
线性强盗
一种将奖励建模为行动或上下文特征的线性函数的方法。
11 術語
子類別
非平稳多臂老虎机
奖励分布随时间变化的场景,需要自适应算法。
12 術語
子類別
延迟强盗问题
奖励仅在延迟后被观察到的问题,使得将结果归因于行动变得复杂。
17 術語
子類別
对抗性强盗模型
一种奖励由对手而非随机过程生成的模型。
16 術語
子類別
贝叶斯赌博机
使用贝叶斯推理对奖励分布的不确定性进行建模的方法。
12 術語
子類別
分层强盗算法
一种多层级结构,通过层级化组织决策来有效探索大规模动作空间。
17 術語
子類別
带约束的强盗问题
在满足某些限制条件的同时,智能体必须最大化奖励的约束优化问题。
20 術語
子類別
推荐系统中的强盗算法
专用于推荐系统,平衡内容探索与利用的应用。
8 術語
子類別
在线强盗算法
持续学习,其中智能体实时适应新信息,无需预先训练阶段。
9 術語
🔍