ट्रैजेक्टरी ट्रांसफॉर्मर
अनुक्रम मॉडलिंग
एक दृष्टिकोण जो सुदृढ़ीकरण सीखने को अनुक्रम मॉडलिंग की समस्या के रूप में औपचारिक रूप देता है, जहाँ राज्यों, क्रियाओं और पुरस्कारों को एक समय-आधारित अनुक्रम में टोकन के रूप में माना जाता है।
← पीछे