在线优化 - AI 术语表

📖

个术语

Bandit Algorithm

在线学习算法家族，其中智能体必须顺序选择具有不确定奖励的动作以最大化累积收益。

📖

个术语

Follow the Leader (FTL)

在线优化策略，算法在每一步选择在迄今为止观察到的过去数据上最优的动作。

📖

个术语

Follow the Regularized Leader (FTRL)

FTL的变体，引入正则化以稳定顺序决策，并在对抗性环境中保证更好的遗憾界。

📖

个术语

Online Gradient Descent

优化算法，根据每个新观测值计算出的损失函数梯度反方向更新模型参数。

📖

个术语

Multiplicative Weights Update

在线优化方法，根据专家过去的表现指数调整分配给专家的权重，以组合他们的预测。

📖

个术语

Expert Advice

在线学习框架，算法必须聚合多个专家的建议，以最小化相对于最佳专家的遗憾。

📖

个术语

Online Convex Optimization

数学理论，研究凸函数的顺序优化，其中损失函数随时间逐步揭示。

📖

个术语

Adversarial Online Learning

在线学习场景，其中数据由可能恶意的对手生成，试图最大化算法的遗憾。

📖

个术语

探索-利用权衡

在线学习中的基本困境，在探索新行动以发现其回报与利用已知表现良好的行动之间进行权衡。

📖

个术语

在线镜像下降法

使用Bregman函数将更新投影到约束空间中的梯度下降推广，在优化中提供更高的灵活性。

📖

个术语

部分信息学习

算法仅接收所选行动（赌博机）而非所有可能行动（完全信息）的信息的范式。

📖

个术语

自适应学习率

根据损失函数局部特性动态调整学习步长的机制，以在非平稳环境中优化收敛。

📖

个术语

Hedge算法

使用权重乘性更新的专家聚合算法，保证相对于最佳专家的对数遗憾界。

📖

个术语

遗憾界

算法可能遭受的累积遗憾的理论上界，用于比较和保证在线优化方法的性能。

📖

个术语

随机在线学习

数据遵循固定但未知概率分布的学习框架，允许期望性能保证而非最坏情况保证。

AI 词汇表