Fine-tuning
DPO (Direct Preference Optimization)
Alternative à RLHF qui optimise directement le modèle à partir de données de préférences humaines sans nécessiter un modèle de récompense intermédiaire, simplifiant le processus d'alignement.
← Retour