Aprendizaje Q doble
Descomposición del error
Análisis matemático que muestra cómo el error en el aprendizaje por refuerzo se descompone en sesgo y varianza; el aprendizaje por refuerzo con doble Q reduce específicamente la componente de sesgo de maximización.
← Volver