AI 词汇表
人工智能完整词典
200
个类别
2,608
个子类别
30,011
个术语
个术语
上下文强盗
一种强化学习算法,根据观察到的上下文动态选择最佳动作,以最大化累积奖励。
个术语
探索与利用
一个基本困境,算法需要在发现新选项与利用已知表现良好的选项之间取得平衡。
个术语
上置信界
一种策略,根据奖励期望的上置信界选择臂,促进对不确定动作的探索。
个术语
汤普森采样
一种贝叶斯算法,从奖励参数的后验分布中采样,以做出概率性决策。
个术语
线性上置信界
UCB的扩展,将期望奖励建模为上下文的线性函数,适用于高维上下文空间。
个术语
上下文特征
描述环境当前状态的变量,在上下文强盗问题中影响最优动作的选择。
个术语
遗憾最小化
旨在最小化获得的累积奖励与最优策略的累积奖励之间的差异,用于衡量算法性能。
个术语
多臂强盗
一个基本问题,智能体需要从奖励分布未知的多个选项(臂)中选择,以最大化收益。
个术语
奖励函数
量化在给定情境下采取行动后获得的即时回报的数学函数,指导算法的学习过程。
个术语
手臂选择
基于当前奖励估计和观察到的情境,从可用选项中选择最优行动的过程。
个术语
期望奖励
在特定情境下,给定行动的奖励预期平均值,根据历史观察计算得出。
个术语
动作价值函数
函数Q(a,x),用于估计在情境'x'下采取行动'a'的预期未来奖励,是策略评估的基础。
个术语
在线学习
学习范式,其中模型随着新数据的到达而持续调整,无需完全重新训练。
个术语
随机情境老虎机
变体,其中奖励遵循每个情境-行动对独立同分布的随机分布。
个术语
神经老虎机
使用神经网络来近似价值函数或策略的方法,能够捕捉复杂的非线性关系。
🔍