Aprendizaje Q doble
Evaluación cruzada
Principio fundamental del Double Q-learning donde cada estimador Q evalúa las acciones seleccionadas por el otro, creando una validación cruzada que evita la sistemática sobreestimación.
← Volver