人工智能完整词典
经典老虎机的扩展,其中决策依赖于可观察的上下文或状态来个性化选择。
一种性能度量,量化获得的累积收益与拥有完美信息时可能获得的最优收益之间的差异。
一种探索策略,其中探索概率随时间线性减少,以逐步偏向利用。
使用梯度估计来根据收到的奖励调整动作偏好的算法。
概率近似正确框架,保证在经过一定次数的试验后,以1-δ的概率确保误差小于ε。