上下文多臂老虎机

📖

術語

上下文强盗

一种强化学习算法，根据观察到的上下文动态选择最佳动作，以最大化累积奖励。

📖

術語

探索与利用

一个基本困境，算法需要在发现新选项与利用已知表现良好的选项之间取得平衡。

📖

術語

上置信界

一种策略，根据奖励期望的上置信界选择臂，促进对不确定动作的探索。

📖

術語

汤普森采样

一种贝叶斯算法，从奖励参数的后验分布中采样，以做出概率性决策。

📖

術語

线性上置信界

UCB的扩展，将期望奖励建模为上下文的线性函数，适用于高维上下文空间。

📖

術語

上下文特征

描述环境当前状态的变量，在上下文强盗问题中影响最优动作的选择。

📖

術語

遗憾最小化

旨在最小化获得的累积奖励与最优策略的累积奖励之间的差异，用于衡量算法性能。

📖

術語

多臂强盗

一个基本问题，智能体需要从奖励分布未知的多个选项（臂）中选择，以最大化收益。

📖

術語

奖励函数

量化在给定情境下采取行动后获得的即时回报的数学函数，指导算法的学习过程。

📖

術語

手臂选择

基于当前奖励估计和观察到的情境，从可用选项中选择最优行动的过程。

📖

術語

期望奖励

在特定情境下，给定行动的奖励预期平均值，根据历史观察计算得出。

📖

術語

动作价值函数

函数Q(a,x)，用于估计在情境'x'下采取行动'a'的预期未来奖励，是策略评估的基础。

📖

術語

在线学习

学习范式，其中模型随着新数据的到达而持续调整，无需完全重新训练。

📖

術語

随机情境老虎机

变体，其中奖励遵循每个情境-行动对独立同分布的随机分布。

📖

術語

神经老虎机

使用神经网络来近似价值函数或策略的方法，能够捕捉复杂的非线性关系。

AI 詞彙表