RLHF (Reinforcement Learning from Human Feedback)

📖

用語

RLHFで広く使用されている強化学習アルゴリズムで、ポリシーの更新を前のポリシーに近づけて維持し、トレーニングの安定性を確保します。

📖

用語

人間の好みデータで訓練され、報酬スコアを予測するモデルで、RLHFプロセスで目的関数として機能します。

📖

用語

人間の評価者がモデルの異なる応答を比較し、報酬モデルのトレーニングの基礎となるランキングを作成する収集されたデータセットです。

📖

用語

安全で有益な対話を確保するために、AIモデルの動作を人間の価値観、意図、好みに一致させることを目指すプロセスです。

📖

用語

モデルが高品質のデモンストレーション例から学習する予備的なトレーニング段階で、RLHFアライメントの前に強固な基礎を築きます。

📖

用語

特定のアライメントメカニズムを通じて、有害、偏見、不適切な応答を避けることでAIモデルをより安全にすることを目指す一連の技術です。

📖

用語

モデルが本当に望ましい目標を達成することなく、報酬関数の脆弱性を利用してスコアを最大化する現象です。

📖

用語

人間がモデルのトレーニングと評価サイクルに積極的に参加し、継続的な修正とフィードバックを提供するアプローチです。

AI用語集