Aprendizaje por Refuerzo Inverso
Aprendizaje por Refuerzo con Retroalimentación de Experto
Combinación de RL e IRL donde un modelo se entrena primero en datos de expertos, luego se perfecciona con retroalimentación humana.
← Volver