डैगर डेटा एग्रीगेशन
DAgger (Dataset Aggregation)
इमिटेशन लर्निंग एल्गोरिथ्म जो पॉलिसी द्वारा दौरा किए गए राज्यों पर विशेषज्ञ से पूछकर पुनरावृत्त रूप से डेटा एकत्र करता है। यह दृष्टिकोण प्रशिक्षण वितरण और तैनाती वितरण के बीच के अंतर को कम करता है।
← पीछे