अलग-अलग सीखना
बेलमैन टीडी समीकरण
बेलमैन समीकरण का एक संशोधित स्वरूप जो अंतराल अधिगम के लिए उपयुक्त है, जो किसी स्थिति के मूल्य को तत्काल पुरस्कारों और भविष्य के मूल्यों के फलन के रूप में व्यक्त करता है।
← पीछे