Aprendizaje mediante Dyna-Q
Modelo de recompensa
Función aprendida que predice la recompensa esperada para cada par estado-acción en un entorno de aprendizaje por refuerzo.
← VolverFunción aprendida que predice la recompensa esperada para cada par estado-acción en un entorno de aprendizaje por refuerzo.
← Volver