Aprendizaje Activo por Refuerzo
Estado-Acción-Valor
Función Q(s,a) que estima la recompensa acumulada esperada al seleccionar la acción a desde el estado s y siguiendo la política óptima.
← Volver