🏠 Accueil
基準測試
📊 Tous les Benchmarks 🦖 Dinosaure v1 🦖 Dinosaure v2 ✅ To-Do List Apps 🎨 Pages Libres 🎯 FSACB - Showcase 🌍 Traduction
Modèles
🏆 Top 10 Modèles 🆓 Modèles Gratuits 📋 Tous les Modèles ⚙️ Modes Kilo Code
Ressources
💬 Prompts IA 📖 人工智能詞彙表 🔗 Liens Utiles

AI 詞彙表

人工智能完整詞典

200
類別
2,608
子類別
30,011
術語
📖
術語

上下文强盗

一种强化学习算法,根据观察到的上下文动态选择最佳动作,以最大化累积奖励。

📖
術語

探索与利用

一个基本困境,算法需要在发现新选项与利用已知表现良好的选项之间取得平衡。

📖
術語

上置信界

一种策略,根据奖励期望的上置信界选择臂,促进对不确定动作的探索。

📖
術語

汤普森采样

一种贝叶斯算法,从奖励参数的后验分布中采样,以做出概率性决策。

📖
術語

线性上置信界

UCB的扩展,将期望奖励建模为上下文的线性函数,适用于高维上下文空间。

📖
術語

上下文特征

描述环境当前状态的变量,在上下文强盗问题中影响最优动作的选择。

📖
術語

遗憾最小化

旨在最小化获得的累积奖励与最优策略的累积奖励之间的差异,用于衡量算法性能。

📖
術語

多臂强盗

一个基本问题,智能体需要从奖励分布未知的多个选项(臂)中选择,以最大化收益。

📖
術語

奖励函数

量化在给定情境下采取行动后获得的即时回报的数学函数,指导算法的学习过程。

📖
術語

手臂选择

基于当前奖励估计和观察到的情境,从可用选项中选择最优行动的过程。

📖
術語

期望奖励

在特定情境下,给定行动的奖励预期平均值,根据历史观察计算得出。

📖
術語

动作价值函数

函数Q(a,x),用于估计在情境'x'下采取行动'a'的预期未来奖励,是策略评估的基础。

📖
術語

在线学习

学习范式,其中模型随着新数据的到达而持续调整,无需完全重新训练。

📖
術語

随机情境老虎机

变体,其中奖励遵循每个情境-行动对独立同分布的随机分布。

📖
術語

神经老虎机

使用神经网络来近似价值函数或策略的方法,能够捕捉复杂的非线性关系。

🔍

搵唔到結果