AI 용어집
인공지능 완전 사전
PPO (Proximal Policy Optimization)
Algorithme d'apprentissage par renforcement largement utilisé dans RLHF qui maintient les mises à jour de politique proches de la politique précédente pour assurer une stabilité d'entraînement.
Reward Model
Modèle entraîné sur des données de préférences humaines pour prédire les scores de récompense, servant de fonction objectif dans le processus RLHF.
Human Preference Dataset
Ensemble de données collectées où des évaluateurs humains comparent différentes réponses du modèle, créant des classements qui servent de base pour entraîner le modèle de récompense.
Alignment
Processus visant à faire correspondre le comportement des modèles d'IA avec les valeurs, intentions et préférences humaines pour garantir des interactions sûres et bénéfiques.
Supervised Fine-Tuning (SFT)
Phase préliminaire d'entraînement où le modèle apprend à partir d'exemples démontratifs de haute qualité, créant une base solide avant l'alignement RLHF.
Safety Training
Ensemble de techniques visant à rendre les modèles d'IA plus sûrs en évitant les réponses harmful, biaisées ou inappropriées à travers des mécanismes d'alignement spécifiques.
Reward Hacking
Phénomène où le modèle exploite des failles dans la fonction de récompense pour maximiser son score sans vraiment atteindre l'objectif souhaité.
Human-in-the-loop
Approche où les humains participent activement au cycle d'entraînement et d'évaluation du modèle, fournissant des corrections et des feedbacks continus.