Bandidos Contextuales
Función de Valor-Acción
Función Q(a,x) que estima la recompensa futura esperada al tomar la acción 'a' en el contexto 'x', fundamental para la evaluación de políticas.
← Volver