🏠 Accueil
基準測試
📊 Tous les Benchmarks 🦖 Dinosaure v1 🦖 Dinosaure v2 ✅ To-Do List Apps 🎨 Pages Libres 🎯 FSACB - Showcase 🌍 Traduction
Modèles
🏆 Top 10 Modèles 🆓 Modèles Gratuits 📋 Tous les Modèles ⚙️ Modes Kilo Code
Ressources
💬 Prompts IA 📖 人工智能詞彙表 🔗 Liens Utiles

AI 詞彙表

人工智能完整詞典

200
類別
2,608
子類別
30,011
術語
📖
術語

批量约束Q学习(BCQ)

一种离线强化学习算法,通过约束策略使其接近训练数据集中观察到的动作,以避免外推误差。BCQ使用动作生成器模型生成与批次中动作相似的动作,同时探索轻微的变化。

📖
術語

分布偏移

学习策略访问的状态-动作分布与离线数据集的分布显著不同的现象。这种偏移可能导致价值估计偏差,并在部署时导致性能下降。

📖
術語

离线强化学习

一种学习范式,智能体仅从预先收集的固定数据集中学习,无需与环境交互。当实时探索成本高昂或危险时,这种方法至关重要。

📖
術語

行为克隆

一种监督学习技术,直接从示范数据中模仿专家的动作,而不使用奖励信号。虽然简单,但这种方法在部署时可能遭受级联误差累积的问题。

📖
術語

隐式Q学习

一种通过避免直接评估分布外动作来隐式学习Q函数的方法。IQL将学习表述为期望分位数学习问题,以更好地处理离线数据中的不确定性。

📖
術語

分布外动作

学习策略生成的在训练数据集中未出现或很少出现的动作。这些动作在离线强化学习中构成重大风险,因为它们的价值无法可靠估计。

📖
術語

策略约束

限制学习策略生成与离线数据批次中动作相似的机制。这种约束可以通过惩罚、散度或条件生成模型来实现。

📖
術語

扰动模型

BCQ的一个组件,用于在行为动作周围生成变化,以局部探索动作空间。该模型向观察到的动作添加受控噪声,同时确保其可行性。

📖
術語

价值函数估计

从离线数据中估计Q值的过程,同时考虑由于缺乏探索可能带来的偏差。现代方法使用保守低估技术来避免过度优化。

📖
術語

批量强化学习

强化学习的框架,其中智能体拥有固定的转换批次,并且必须在没有额外交互的情况下学习最优策略。这种背景对算法施加了特定约束以避免发散。

📖
術語

安全约束

对离线策略施加的限制,以确保生成的动作保持在状态-动作空间的安全区域内。这些约束在机器人或医疗等应用中至关重要。

📖
術語

动作重复

离线强化学习中使用的策略,通过重复与数据中观察到的类似动作来提高稳定性。这种技术降低了生成全新且潜在危险动作的风险。

📖
術語

不确定性估计

对批次中未观察到的动作价值估计相关不确定性的量化。准确的不确定性估计允许惩罚分布外动作并提高鲁棒性。

📖
術語

基于模型的强化学习

从离线数据中学习环境动态模型以生成合成经验的方法。在离线环境中,必须谨慎使用此模型以避免误差传播。

📖
術語

策略评估

仅使用离线数据而不与环境交互来评估策略性能的阶段。此步骤对于在部署前验证学习结果至关重要。

📖
術語

策略改进

使用从离线数据批次计算出的价值估计来迭代改进策略的过程。改进必须遵守分布约束以保持有效性。

📖
術語

Bootstrapping Error

当策略使用其自身的价值估计进行改进时累积的误差,导致偏离数据支持范围。离线方法使用特定技术来控制这种偏差。

🔍

搵唔到結果