🏠 首页
基准测试
📊 所有基准测试 🦖 恐龙 v1 🦖 恐龙 v2 ✅ 待办事项应用 🎨 创意自由页面 🎯 FSACB - 终极展示 🌍 翻译基准测试
模型
🏆 前 10 名模型 🆓 免费模型 📋 所有模型 ⚙️ 🛠️ 千行代码模式
资源
💬 💬 提示库 📖 📖 AI 词汇表 🔗 🔗 有用链接

AI 词汇表

人工智能完整词典

200
个类别
2,608
个子类别
30,011
个术语
📖
个术语

DAgger(数据集聚合)

一种模仿学习算法,通过在当前策略访问的状态上查询专家来迭代收集数据。这种方法减少了训练分布和部署分布之间的差距。

📖
个术语

数据聚合

收集和组合来自不同来源或学习迭代的多个数据集的过程。在DAgger中,这有助于逐步提高所学策略的鲁棒性。

📖
个术语

迭代收集

在多个连续周期中进行数据收集的方法论,每个周期都利用前一周期的信息。这种方法允许持续改进策略并探索新状态。

📖
个术语

行为策略

在DAgger中数据收集期间智能体遵循的动作策略或概率分布。它随迭代过程发展,逐渐接近最优策略。

📖
个术语

状态分布

智能体在执行过程中可能访问的状态的概率集合。DAgger试图将此分布与实际部署中遇到的分布对齐。

📖
个术语

分布偏差

训练数据分布与生产部署中遇到的分布之间的差异。DAgger通过在当前策略实际访问的状态上收集数据来减少这种偏差。

📖
个术语

错误纠正

当智能体的当前策略犯错时,专家提供正确动作的过程。这些纠正措施作为新的训练数据来改进策略。

📖
个术语

专家查询

从人类专家或系统请求智能体访问的特定状态的最优动作的机制。这些查询对于生成高质量训练数据至关重要。

📖
个术语

访问的状态

智能体在执行其当前策略时所达到的特定环境配置或状态。在DAgger中,这些状态成为专家需要回答的问题。

📖
个术语

当前策略

智能体决策策略的当前版本,在DAgger算法的每次迭代中不断进化。它用于探索环境并识别需要专家纠正的状态。

📖
个术语

自适应聚合

DAgger的一种变体,动态调整专家行动与当前策略行动的比例。这种调整使得在学习过程中能够平衡探索和利用。

📖
个术语

反馈循环

当前策略的性能产生新状态,而这些状态又需要专家纠正的连续循环。这个迭代循环是DAgger中改进的基本机制。

📖
个术语

在线纠正

在智能体策略的实时执行过程中发生的专家干预过程。这些即时纠正有助于避免错误在轨迹中传播。

📖
个术语

轨迹分布

智能体遵循其当前策略生成的状态和行动序列集合。DAgger的目标是使这个分布与最优专家策略产生的分布保持一致。

📖
个术语

目标策略

智能体试图模仿的最优策略,通常由专家的示范表示。DAgger的目标是使学到的策略收敛到这个目标策略。

📖
个术语

渐进式聚合

一种数据累积策略,每次新的迭代都会向现有数据添加补充信息。这种方法确保对相关状态空间的覆盖逐渐增加。

📖
个术语

紧凑性误差

由于表示限制导致的学习策略与专家策略之间的性能差异。DAgger通过收集真实状态分布的数据来最小化此误差。

🔍

未找到结果