AI 词汇表
人工智能完整词典
200
个类别
2,608
个子类别
30,011
个术语
个术语
LinUCB
假设上下文与期望奖励之间存在线性关系的上下文赌博机算法。使用置信上界来最优地平衡探索与利用。
个术语
Thompson Sampling Contextuel
上下文赌博机的贝叶斯方法,根据后验分布对参数进行采样。选择根据该采样期望奖励最大的臂,实现自然探索。
个术语
Vector de Contexte
在给定时刻环境可观测特征的向量表示。作为上下文赌博机模型的基础,用于预测条件奖励。
个术语
Taux de Regret Contextuel
性能度量,量化已获得奖励与后验最优固定策略奖励之间的累积差异。用于评估上下文赌博机算法的有效性。
个术语
Bandits à Noyaux
上下文赌博机的扩展,使用核方法捕捉上下文与奖励之间的非线性关系。无需严格线性假设即可实现灵活建模。
个术语
Factorisation de Matrices pour Bandits
结合上下文赌博机和矩阵分解的技术,用于处理高维动作或上下文空间。在不同上下文配置之间高效共享信息。
个术语
Bandits Hiérarchiques
上下文赌博机的分层结构,高层决策影响低层可用选择。实现结构化且高效的决策制定。
个术语
Exploration Contextuelle
考虑上下文信息的自适应探索策略,以优化数据收集。通过专注于最有前景的上下文区域来减少遗憾。
个术语
延迟反馈的强盗问题
上下文强盗问题的一种变体,其中奖励仅在显著延迟后才被观察到。需要采用适应的算法来处理时间不确定性并保持有效学习。
个术语
非平稳强盗问题
上下文强盗问题中奖励分布随时间演变的情况。需要算法能够适应变化以保持最佳性能。
个术语
对抗性强盗问题
奖励由对手生成而非遵循固定随机分布的框架。需要稳健的策略来保证最坏情况下的遗憾界限。
个术语
带约束的强盗问题
上下文强盗问题的扩展,包含对资源或成本的约束。在遵守环境施加的限制的同时优化奖励。
个术语
策略学习
算法直接学习将上下文映射到最优动作的策略函数的方法。避免显式估计价值以实现更直接的决策。
个术语
组合强盗问题
允许在组合约束下同时选择多个臂的泛化。应用于在线广告、集合推荐和投资组合优化。
个术语
强盗问题的元学习
通过在多任务强盗问题中获取的知识来加速新任务学习的方法。在初始数据较少的场景中特别有用。
🔍