GPT (Generative Pre-trained Transformer)
RLHF(人間のフィードバックによる強化学習)
モデルのアライメントのためのパラダイム。人間の嗜好から導き出された報酬を用いて強化学習によりモデルをファインチューニングし、その振る舞いを調整する。
← 戻るモデルのアライメントのためのパラダイム。人間の嗜好から導き出された報酬を用いて強化学習によりモデルをファインチューニングし、その振る舞いを調整する。
← 戻る