रीइन्फोर्समेंट लर्निंग फॉर ऑप्टिमाइज़ेशन
पॉलिसी ग्रेडिएंट एल्गोरिदम
एक अनुकूलन विधि जो सीधे पॉलिसी के पैरामीटर्स को उन पैरामीटर्स के संबंध में अपेक्षित पुरस्कार के ग्रेडिएंट का पालन करके समायोजित करती है।
← पीछे