মডেল-ভিত্তিক গভীর RL
ফরোয়ার্ড ডাইনামিক্স মডেল
ভবিষ্যৎ পরিবেশে কর্মের ফলাফল পূর্বাভাস দেওয়ার জন্য রাষ্ট্রীয় রূপান্তর s_{t+1} = f(s_t, a_t) শেখার পূর্বাভাসমূলক মডেল।
← ফিরে যানভবিষ্যৎ পরিবেশে কর্মের ফলাফল পূর্বাভাস দেওয়ার জন্য রাষ্ট্রীয় রূপান্তর s_{t+1} = f(s_t, a_t) শেখার পূর্বাভাসমূলক মডেল।
← ফিরে যান