Fine-tuning
DPO (Optimización Directa de Preferencias)
Alternativa a RLHF que optimiza directamente el modelo a partir de datos de preferencias humanas sin requerir un modelo de recompensa intermedio, simplificando el proceso de alineación.
← Volver