BenchVibe AI Ecosystem

VIP 👤

🏠 ホーム

ベンチマーク

📊 すべてのベンチマーク 🦖 恐竜 v1 🦖 恐竜 v2 ✅ To-Doリストアプリ 🎨 クリエイティブフリーページ 🎯 FSACB - アルティメットショーケース 🌍 翻訳ベンチマーク

モデル

🏆 トップ10モデル 🆓 無料モデル 📋 すべてのモデル ⚙️ 🛠️ Kilo Code モード

リソース

💬 💬 プロンプトライブラリ 📖 📖 AI用語集 🔗 🔗 有用なリンク

AI用語集

人工知能の完全辞典

236

カテゴリ

3,245

サブカテゴリ

39,334

用語

期待値近似

将来の報酬の期待値の推定のみに集中する強化学習（RL）における従来の手法。このアプローチは、報酬分布の分散や高次のモーメントを無視する。

分布ベルマン方程式

スカラー値ではなく確率分布に対して操作を行う、ベルマン方程式の一般化。状態遷移を通じて報酬の分布がどのように伝播するかを記述する。

リスク感受性方策

期待値だけでなく、報酬分布の分散やその他の特性も考慮する行動戦略。目的に応じて、これらの方策はリスク回避的またはリスク追求的になり得る。

累積分布関数

確率変数が特定の閾値以下の値をとる確率を与える数学的関数。分布強化学習において、累積報酬の完全な分布を表す。

モーメントマッチング

ターゲット分布の統計的モーメント（平均、分散など）を一致させようとする近似手法。強化学習における分布の表現を簡略化するために使用されることがある。

🔍

結果が見つかりません