🏠 首页
基准测试
📊 所有基准测试 🦖 恐龙 v1 🦖 恐龙 v2 ✅ 待办事项应用 🎨 创意自由页面 🎯 FSACB - 终极展示 🌍 翻译基准测试
模型
🏆 前 10 名模型 🆓 免费模型 📋 所有模型 ⚙️ 🛠️ 千行代码模式
资源
💬 💬 提示库 📖 📖 AI 词汇表 🔗 🔗 有用链接

AI 词汇表

人工智能完整词典

200
个类别
2,608
个子类别
30,011
个术语
📖
个术语

上下文强盗

一种强化学习算法,根据观察到的上下文动态选择最佳动作,以最大化累积奖励。

📖
个术语

探索与利用

一个基本困境,算法需要在发现新选项与利用已知表现良好的选项之间取得平衡。

📖
个术语

上置信界

一种策略,根据奖励期望的上置信界选择臂,促进对不确定动作的探索。

📖
个术语

汤普森采样

一种贝叶斯算法,从奖励参数的后验分布中采样,以做出概率性决策。

📖
个术语

线性上置信界

UCB的扩展,将期望奖励建模为上下文的线性函数,适用于高维上下文空间。

📖
个术语

上下文特征

描述环境当前状态的变量,在上下文强盗问题中影响最优动作的选择。

📖
个术语

遗憾最小化

旨在最小化获得的累积奖励与最优策略的累积奖励之间的差异,用于衡量算法性能。

📖
个术语

多臂强盗

一个基本问题,智能体需要从奖励分布未知的多个选项(臂)中选择,以最大化收益。

📖
个术语

奖励函数

量化在给定情境下采取行动后获得的即时回报的数学函数,指导算法的学习过程。

📖
个术语

手臂选择

基于当前奖励估计和观察到的情境,从可用选项中选择最优行动的过程。

📖
个术语

期望奖励

在特定情境下,给定行动的奖励预期平均值,根据历史观察计算得出。

📖
个术语

动作价值函数

函数Q(a,x),用于估计在情境'x'下采取行动'a'的预期未来奖励,是策略评估的基础。

📖
个术语

在线学习

学习范式,其中模型随着新数据的到达而持续调整,无需完全重新训练。

📖
个术语

随机情境老虎机

变体,其中奖励遵循每个情境-行动对独立同分布的随机分布。

📖
个术语

神经老虎机

使用神经网络来近似价值函数或策略的方法,能够捕捉复杂的非线性关系。

🔍

未找到结果