🏠 ホーム
ベンチマーク
📊 すべてのベンチマーク 🦖 恐竜 v1 🦖 恐竜 v2 ✅ To-Doリストアプリ 🎨 クリエイティブフリーページ 🎯 FSACB - アルティメットショーケース 🌍 翻訳ベンチマーク
モデル
🏆 トップ10モデル 🆓 無料モデル 📋 すべてのモデル ⚙️ 🛠️ Kilo Code モード
リソース
💬 💬 プロンプトライブラリ 📖 📖 AI用語集 🔗 🔗 有用なリンク

AI用語集

人工知能の完全辞典

236
カテゴリ
3,245
サブカテゴリ
39,334
用語
📖
用語

分位点回帰DRL

期待値のみではなく、期待される報酬の全分布をモデル化する深層強化学習のアプローチであり、分位点回帰を用いて価値分布の分位点を推定します。

📖
用語

DRLにおけるワッサースタイン距離

分布型深層強化学習(DRL)で使用される分布間の距離メトリクスであり、予測された報酬分布とターゲット分布との間の非類似度を測定し、学習の安定性を向上させます。

📖
用語

価値分布モデリング

各状態-行動ペアに対して期待値のみではなく、期待される報酬の全分布を近似する手法であり、環境に固有の不確実性と変動性を捉えます。

📖
用語

Expectile回帰RL

分位点回帰ではなくExpectile回帰を使用する分布型DRLの変種であり、特にリスクに敏感な文脈に適した、報酬分布の推定における制御可能な非対称性を提供します。

📖
用語

確率的報酬分布

各状態-行動ペアに対する将来の期待報酬の完全な確率的表現であり、平均だけでなく分散、歪度、およびその他の統計的モーメントも特徴付けます。

📖
用語

分布型射影ベルマン更新

ターゲット報酬分布をサポートされた分布空間に射影する更新手順であり、分布型フレームワークにおける学習の一貫性と安定性を保証します。

📖
用語

DRLにおけるテイルリスク評価

報酬分布の裾(テイル)を分析することで極端なリスク(テイルリスク)を定量的に評価する分布型DRLの能力であり、重要なアプリケーションにおいて不可欠です。

📖
用語

分位点サンプリング戦略

QR-DRLの枠組みにおける分位点のサンプリング手法であり、分布学習の効率を最適化するために、一様サンプリング、適応的サンプリング、または重要性ベースのサンプリングが含まれます。

🔍

結果が見つかりません