BenchVibe AI Ecosystem

VIP 👤

🏠 Accueil

基準測試

📊 Tous les Benchmarks 🦖 Dinosaure v1 🦖 Dinosaure v2 ✅ To-Do List Apps 🎨 Pages Libres 🎯 FSACB - Showcase 🌍 Traduction

Modèles

🏆 Top 10 Modèles 🆓 Modèles Gratuits 📋 Tous les Modèles ⚙️ Modes Kilo Code

Ressources

💬 Prompts IA 📖 人工智能詞彙表 🔗 Liens Utiles

AI 詞彙表

人工智能完整詞典

200

類別

2,608

子類別

30,011

術語

期望值近似

强化学习（RL）中的一种传统方法，仅专注于估计未来回报的数学期望。这种方法忽略了回报分布的方差和高阶矩。

分布式贝尔曼方程

贝尔曼方程的推广，它作用于随机分布而不是标量值。它描述了回报分布如何通过状态转移进行传播。

风险敏感策略

一种不仅考虑期望，还考虑回报分布的方差或其他特征的动作策略。根据目标的不同，这些策略可以是风险厌恶的或风险寻求的。

累积分布函数

给出随机变量取值小于或等于给定阈值的概率的数学函数。在分布式强化学习中，它代表累积回报的完整分布。

矩匹配

一种试图匹配目标分布的统计矩（均值、方差等）的近似技术。它有时用于简化强化学习中分布的表示。

🔍

搵唔到結果