情境化多臂老虎机

📖

个术语

LinUCB

假设上下文与期望奖励之间存在线性关系的上下文赌博机算法。使用置信上界来最优地平衡探索与利用。

📖

个术语

Thompson Sampling Contextuel

上下文赌博机的贝叶斯方法，根据后验分布对参数进行采样。选择根据该采样期望奖励最大的臂，实现自然探索。

📖

个术语

Vector de Contexte

在给定时刻环境可观测特征的向量表示。作为上下文赌博机模型的基础，用于预测条件奖励。

📖

个术语

Taux de Regret Contextuel

性能度量，量化已获得奖励与后验最优固定策略奖励之间的累积差异。用于评估上下文赌博机算法的有效性。

📖

个术语

Bandits à Noyaux

上下文赌博机的扩展，使用核方法捕捉上下文与奖励之间的非线性关系。无需严格线性假设即可实现灵活建模。

📖

个术语

Factorisation de Matrices pour Bandits

结合上下文赌博机和矩阵分解的技术，用于处理高维动作或上下文空间。在不同上下文配置之间高效共享信息。

📖

个术语

Bandits Hiérarchiques

上下文赌博机的分层结构，高层决策影响低层可用选择。实现结构化且高效的决策制定。

📖

个术语

Exploration Contextuelle

考虑上下文信息的自适应探索策略，以优化数据收集。通过专注于最有前景的上下文区域来减少遗憾。

📖

个术语

延迟反馈的强盗问题

上下文强盗问题的一种变体，其中奖励仅在显著延迟后才被观察到。需要采用适应的算法来处理时间不确定性并保持有效学习。

📖

个术语

非平稳强盗问题

上下文强盗问题中奖励分布随时间演变的情况。需要算法能够适应变化以保持最佳性能。

📖

个术语

对抗性强盗问题

奖励由对手生成而非遵循固定随机分布的框架。需要稳健的策略来保证最坏情况下的遗憾界限。

📖

个术语

带约束的强盗问题

上下文强盗问题的扩展，包含对资源或成本的约束。在遵守环境施加的限制的同时优化奖励。

📖

个术语

策略学习

算法直接学习将上下文映射到最优动作的策略函数的方法。避免显式估计价值以实现更直接的决策。

📖

个术语

组合强盗问题

允许在组合约束下同时选择多个臂的泛化。应用于在线广告、集合推荐和投资组合优化。

📖

个术语

强盗问题的元学习

通过在多任务强盗问题中获取的知识来加速新任务学习的方法。在初始数据较少的场景中特别有用。

AI 词汇表