ट्रस्ट रीजन पॉलिसी ऑप्टिमाइजेशन (TRPO)
नमूना दक्षता
एक प्रबलित सीखने एल्गोरिथ्म द्वारा एकत्रित डेटा का उपयोग करने की दक्षता का माप, TRPO अपनी अच्छी नमूना दक्षता के लिए जाना जाता है।
← पीछेएक प्रबलित सीखने एल्गोरिथ्म द्वारा एकत्रित डेटा का उपयोग करने की दक्षता का माप, TRPO अपनी अच्छी नमूना दक्षता के लिए जाना जाता है।
← पीछे