🏠 首页
基准测试
📊 所有基准测试 🦖 恐龙 v1 🦖 恐龙 v2 ✅ 待办事项应用 🎨 创意自由页面 🎯 FSACB - 终极展示 🌍 翻译基准测试
模型
🏆 前 10 名模型 🆓 免费模型 📋 所有模型 ⚙️ 🛠️ 千行代码模式
资源
💬 💬 提示库 📖 📖 AI 词汇表 🔗 🔗 有用链接

AI 词汇表

人工智能完整词典

200
个类别
2,608
个子类别
30,011
个术语
📖
个术语

基于模型的模仿学习

一种方法,智能体首先学习环境的动态模型,然后利用该模型来规划,并将从专家演示中模仿的行为推广到新情况。

📖
个术语

动态模型

一种学习环境状态转换的数学表示,即从状态s执行动作a到达新状态s'的概率P(s'|s, a)。

📖
个术语

反事实推理

一种推断专家奖励函数的方法,通过将演示轨迹与相近的反事实轨迹进行比较来识别专家的偏好。

📖
个术语

基于模型的规划

使用学习到的动态模型和奖励模型来模拟不同的动作序列,并在不与真实环境直接交互的情况下选择最优策略的过程。

📖
个术语

基于模型的泛化

基于模型的智能体通过其环境模型模拟假设场景,从而将模仿的行为适应到演示中未见的新情况的能力。

📖
个术语

逆向强化学习 (IRL)

从专家的演示中推断其潜在奖励函数的过程,为智能体的强化学习训练提供密集的奖励信号。

📖
个术语

时间反向传播 (BPTT)

用于训练循环动态模型的算法,其损失梯度是通过在模拟轨迹的时间步上反向传播误差来计算的。

📖
个术语

轨迹优化

一类规划算法,它使用奖励模型和动态模型的梯度来迭代地改进整个轨迹,与基于价值的方法相对。

📖
个术语

行为模仿学习 (BC)

一种监督学习方法,通过最小化智能体行为与专家行为在给定状态下的误差,直接建模专家策略π(a|s)。

📖
个术语

BC-模型混合方法

结合行为模型用于直接模仿和环境模型用于规划的架构,两种贡献被融合以产生智能体的最终行为。

🔍

未找到结果