Fine-tuning
DPO (Otimização Direta de Preferências)
Alternativa ao RLHF que otimiza diretamente o modelo a partir de dados de preferências humanas sem exigir um modelo de recompensa intermediário, simplificando o processo de alinhamento.
← Voltar