Aprendizaje Q doble
Factorización del espacio de acciones
Aplicación avanzada de Double Q-learning donde los dos estimadores se especializan en diferentes subconjuntos de acciones, optimizando la reducción del sesgo en espacios de acción complejos.
← Volver