AI用語集
人工知能の完全辞典
236
カテゴリ
3,245
サブカテゴリ
39,334
用語
用語
PPO (Proximal Policy Optimization)
RLHFで広く使用されている強化学習アルゴリズムで、ポリシーの更新を前のポリシーに近づけて維持し、トレーニングの安定性を確保します。
用語
Reward Model
人間の好みデータで訓練され、報酬スコアを予測するモデルで、RLHFプロセスで目的関数として機能します。
用語
Human Preference Dataset
人間の評価者がモデルの異なる応答を比較し、報酬モデルのトレーニングの基礎となるランキングを作成する収集されたデータセットです。
用語
Alignment
安全で有益な対話を確保するために、AIモデルの動作を人間の価値観、意図、好みに一致させることを目指すプロセスです。
用語
Supervised Fine-Tuning (SFT)
モデルが高品質のデモンストレーション例から学習する予備的なトレーニング段階で、RLHFアライメントの前に強固な基礎を築きます。
用語
Safety Training
特定のアライメントメカニズムを通じて、有害、偏見、不適切な応答を避けることでAIモデルをより安全にすることを目指す一連の技術です。
用語
Reward Hacking
モデルが本当に望ましい目標を達成することなく、報酬関数の脆弱性を利用してスコアを最大化する現象です。
用語
Human-in-the-loop
人間がモデルのトレーニングと評価サイクルに積極的に参加し、継続的な修正とフィードバックを提供するアプローチです。
🔍