RLHF (Reinforcement Learning from Human Feedback)
PPO (Proximal Policy Optimization)
Algorithme d'apprentissage par renforcement largement utilisé dans RLHF qui maintient les mises à jour de politique proches de la politique précédente pour assurer une stabilité d'entraînement.
← 뒤로