MuZero
MuZero
Algoritmo de aprendizagem por reforço que aprende simultaneamente um modelo de transição, recompensa e valor sem qualquer conhecimento prévio da dinâmica do ambiente.
← VoltarAlgoritmo de aprendizagem por reforço que aprende simultaneamente um modelo de transição, recompensa e valor sem qualquer conhecimento prévio da dinâmica do ambiente.
← Voltar