多臂赌博机强化学习

📂

子類別

多臂强盗问题

一个基本问题，其中智能体从多个具有随机奖励的选项中进行选择，以最大化累积收益。

16 術語

📂

子類別

情境化多臂老虎机

多臂老虎机的扩展，其中奖励取决于可观察的情境，允许个性化的自适应决策。

15 術語

📂

子類別

组合强盗问题

一种变体，智能体需在复杂约束和奖励条件下同时选择动作组合。

16 術語

📂

子類別

线性强盗

一种将奖励建模为行动或上下文特征的线性函数的方法。

11 術語

📂

子類別

非平稳多臂老虎机

奖励分布随时间变化的场景，需要自适应算法。

12 術語

📂

子類別

延迟强盗问题

奖励仅在延迟后被观察到的问题，使得将结果归因于行动变得复杂。

17 術語

📂

子類別

对抗性强盗模型

一种奖励由对手而非随机过程生成的模型。

16 術語

📂

子類別

贝叶斯赌博机

使用贝叶斯推理对奖励分布的不确定性进行建模的方法。

12 術語

📂

子類別

分层强盗算法

一种多层级结构，通过层级化组织决策来有效探索大规模动作空间。

17 術語

📂

子類別

带约束的强盗问题

在满足某些限制条件的同时，智能体必须最大化奖励的约束优化问题。

20 術語

📂

子類別

在线强盗算法

持续学习，其中智能体实时适应新信息，无需预先训练阶段。

9 術語

AI 詞彙表

多臂强盗问题

情境化多臂老虎机

组合强盗问题

线性强盗

非平稳多臂老虎机

延迟强盗问题

对抗性强盗模型

贝叶斯赌博机

分层强盗算法

带约束的强盗问题

推荐系统中的强盗算法

在线强盗算法

搵唔到結果