Mecanismos de Contenção
Modelagem de Preferências
Processo de criação de um modelo de recompensa (Reward Model) que aprende as preferências humanas a partir de comparações pareadas de respostas, essencial para o RLHF.
← Voltar