Agregación de Conjunto de Datos (DAgger)
Trayectoria Corregida
Secuencia de estados y acciones donde la intervención del experto reemplaza la acción del agente, creando un ejemplo de aprendizaje de alta calidad para la política.
← Volver