मॉडल अंतरीकरण द्वारा सीखना
अवकलनीय मॉडल-आधारित RL
एक सुदृढ़ीकरण सीखने का दृष्टिकोण जहां ग्रेडिएंट्स को एक अवकलनीय पर्यावरण मॉडल के माध्यम से रिट्रोप्रोपेगेट किया जाता है ताकि सीधे नीतियों का अनुकूलन किया जा सके।
← पीछे