रीइन्फोर्समेंट लर्निंग फॉर ऑप्टिमाइज़ेशन
SARSA एल्गोरिदम
अन-नीति सुदृढीकरण सीखने का एल्गोरिदम जो स्टेट-एक्शन-रिवार्ड-स्टेट-एक्शन अनुक्रम के आधार पर Q मानों को अद्यतन करता है, Q-लर्निंग के विपरीत।
← पीछे