طرق مونت كارلو في التعلم المعزز
خوارزمية GLIE
استراتيجية استكشاف تكون جشعة في النهاية مع استكشاف لا نهائي (Greedy In the Limit with Infinite Exploration)، مما يضمن تقاربًا تقاربيًا نحو السياسة المثلى. يتناقص الاستكشاف تدريجيًا بينما يزداد الاستغلال بمرور الوقت.
← رجوع