🏠 首页
基准测试
📊 所有基准测试 🦖 恐龙 v1 🦖 恐龙 v2 ✅ 待办事项应用 🎨 创意自由页面 🎯 FSACB - 终极展示 🌍 翻译基准测试
模型
🏆 前 10 名模型 🆓 免费模型 📋 所有模型 ⚙️ 🛠️ 千行代码模式
资源
💬 💬 提示库 📖 📖 AI 词汇表 🔗 🔗 有用链接

AI 词汇表

人工智能完整词典

200
个类别
2,608
个子类别
30,011
个术语
📖
个术语

元强化学习

一种强化学习方法,智能体学会学习,获取元知识以快速适应新任务,仅需少量经验。

📖
个术语

元学习器

优化学习过程的算法或模型,以获得快速适应训练期间未见新任务的能力。

📖
个术语

任务特定策略

适应特定任务的强化学习策略,由元学习器从少量经验中快速生成。

📖
个术语

近端元策略优化 (ProMP)

将PPO扩展到元学习的元强化学习算法,优化能够生成每个任务特定策略的元策略。

📖
个术语

元世界

评估元强化学习算法的标准基准和环境,在具有多样化任务分布的机器人操纵任务上进行测试。

📖
个术语

RL² (强化学习平方)

元强化学习框架,其中强化学习算法本身由另一个RL过程学习,将历史信息整合到智能体的状态中。

📖
个术语

元经验回放

按任务组织的经验缓冲区技术,便于快速适应和不同任务间的知识转移。

📖
个术语

元策略梯度

计算相对于元参数梯度的优化算法,以改善任务分布上的预期性能。

📖
个术语

Hindsight Experience Replay (HER) 在元强化学习中的应用

将HER扩展到元强化学习中,其中经验通过不同目标重新解释,以提高采样效率和跨任务泛化能力。

📖
个术语

元强化学习中的课程学习

通过渐进式地按照复杂度递增的顺序安排训练任务,以提高元学习器的适应能力。

📖
个术语

元模仿学习

结合元学习和模仿学习,使智能体能够用少量示例快速学习模仿新的演示。

📖
个术语

元离策略评估

仅使用预先收集的离策略数据来评估元学习策略在新任务上的性能。

🔍

未找到结果