🏠 Accueil
基準測試
📊 Tous les Benchmarks 🦖 Dinosaure v1 🦖 Dinosaure v2 ✅ To-Do List Apps 🎨 Pages Libres 🎯 FSACB - Showcase 🌍 Traduction
Modèles
🏆 Top 10 Modèles 🆓 Modèles Gratuits 📋 Tous les Modèles ⚙️ Modes Kilo Code
Ressources
💬 Prompts IA 📖 人工智能詞彙表 🔗 Liens Utiles

AI 詞彙表

人工智能完整詞典

200
類別
2,608
子類別
30,011
術語
📖
術語

策略决策

定义在每种可能状态下应采取行动的策略或映射,代表强化学习过程中智能体的行为。

📖
術語

多臂赌博机问题

顺序优化问题,智能体必须在奖励未知的多个选项中进行选择,以最大化随时间累积的奖励。

📖
術語

累积奖励

智能体寻求最大化的未来预期奖励总和,通常使用折扣因子计算,对远期奖励赋予较小权重。

📖
術語

SARSA算法

同策略强化学习算法,基于状态-动作-奖励-状态-动作序列更新Q值,与Q学习不同。

📖
術語

深度Q网络

深度神经网络架构,用于在复杂状态空间中近似Q函数,结合深度学习和Q学习。

📖
術語

深度强化学习

将深度神经网络集成到强化学习中的方法,用于处理高维状态或动作空间。

📖
術語

ε-贪心策略

动作选择策略,以概率ε进行探索(选择随机动作),以概率1-ε进行利用(选择已知最佳动作)。

📖
術語

策略优化

强化学习中的一类方法,直接优化策略而不通过价值函数,通常使用策略梯度技术。

📖
術語

策略梯度算法

一种优化方法,直接根据预期奖励相对于策略参数的梯度来调整策略参数

📖
術語

多智能体强化学习

强化学习的扩展,多个智能体在共享环境中同时学习,通常处于竞争或合作状态

📖
術語

经验回放记忆

存储转换数据(状态、动作、奖励、下一状态)的数据结构,用于训练期间的重新采样,提高数据使用效率

📖
術語

演员-评论家算法

结合了根据策略选择动作的演员和评估这些动作的评论家的架构,能够实现更稳定和高效的学习

🔍

搵唔到結果