MuZero
MuZero
Algoritmo de aprendizaje por refuerzo que aprende simultáneamente un modelo de transición, recompensa y valor sin ningún conocimiento previo de la dinámica del entorno.
← VolverAlgoritmo de aprendizaje por refuerzo que aprende simultáneamente un modelo de transición, recompensa y valor sin ningún conocimiento previo de la dinámica del entorno.
← Volver