实时强化学习

📖

術語

一种学习范式，智能体通过与动态环境的即时交互持续调整其行为。这种方法基于流式接收的奖励即时更新行动策略。

📖

術語

流式Q学习

针对连续数据处理优化的Q学习算法变体，随着新经验的到来更新Q值表。该方法在非平稳环境中保持探索与利用之间的平衡。

📖

術語

在线策略梯度

一种策略优化方法，通过基于当前经验计算的梯度实时调整神经网络参数。这种方法特别适用于连续动作空间和动态环境。

📖

術語

分布式行动者-评论家

一种学习架构，行动者提出行动，评论家评估其质量，并在多个智能体之间同步更新。这种方法允许在分布式系统上高效并行化实时学习。

📖

術語

持续学习

一种智能体即使面对显著的环境变化也能保持和改进其知识而无需重置的方法。该技术防止灾难性遗忘，同时适应新的动态条件。

📖

術語

自适应探索-利用

一种动态策略，自动调整发现新行动与利用已获知识之间的权衡。自适应算法根据性能和环境变化性调节此参数。

📖

術語

实时上下文赌博机

多臂赌博机问题的扩展，智能体基于连续观察的上下文选择行动。该方法在动态推荐系统中优化具有即时反馈的顺序决策。

📖

術語

在线元学习

一种技术，智能体学习如何从实时新任务中以最少样本高效学习。这种方法允许快速适应新环境或分布变化。

📖

術語

分布式多智能体强化学习

多个智能体在共享且变化的环境中同时学习并协调其行动的模式。智能体之间的通信和学习同步针对实时性进行了优化。

📖

術語

非平稳强化学习

处理转移概率和奖励随时间变化的环境的理论框架。专门算法持续检测并适应这些分布变化。

📖

術語

零回合强化学习

智能体直接从连续交互中学习，无需明确分段为回合的方法。这种方法特别适用于没有自然回合边界的系统。

📖

術語

连续强化学习

智能体必须在不断变化的环境中同时执行和改进的学习范式。这种方法消除了训练阶段和部署阶段之间的区别。

📖

術語

流式强化学习

针对处理无限数据序列并具有严格内存和计算约束优化的方法。流式算法通过单次处理传入数据来更新模型。

📖

術語

异步强化学习

多个智能体或线程独立探索环境并以异步方式更新共享模型的架构。这种方法最大化计算资源利用率以实现实时学习。

📖

術語

涌现强化学习

复杂适应性行为从简单智能体与其环境的持续交互中自发涌现的现象。这些行为在没有明确编程复杂策略的情况下不断进化和完善。

📖

術語

自适应课程学习

根据智能体当前表现动态调整任务难度的策略。这种方法通过为智能体保持最佳挑战水平来加速学习。

AI 詞彙表