এআই গ্লসারি
কৃত্রিম বুদ্ধিমত্তার সম্পূর্ণ অভিধান
ডাইনামিক্স মডেল
এজেন্ট দ্বারা শেখা একটি মডেল যা পরিবেশের বিবর্তন পূর্বাভাস দেয়, অর্থাৎ বর্তমান অবস্থা এবং গৃহীত কর্ম দেওয়া পরবর্তী অবস্থা বা পর্যবেক্ষণ। এই মডেলের গুণমান মডেল-ভিত্তিক কৌতূহলী শিক্ষার জন্য কেন্দ্রীয়।
অন্তর্নিহিত কৌতূহল মডিউল (ICM)
একটি নির্দিষ্ট নিউরাল নেটওয়ার্ক আর্কিটেকচার যা একটি বৈশিষ্ট্য স্থানে পরবর্তী অবস্থা পূর্বাভাস মডিউল এবং একটি কর্ম পূর্বাভাস বিপরীত মডিউল একত্রিত করে। ফরোয়ার্ড মডিউলের পূর্বাভাস ত্রুটি অন্তর্নিহিত পুরস্কার হিসাবে ব্যবহৃত হয়।
কৌতূহল দ্বারা অন্বেষণ
একটি অন্বেষণ কৌশল যেখানে একজন এজেন্ট পরিবেশের এমন অবস্থা পরিদর্শনে অনুপ্রাণিত হয় যা তার শিক্ষাকে সর্বাধিক করে, পূর্বাভাস ত্রুটি মত অভ্যন্তরীণ সংকেত দ্বারা পরিমাপ করা। এজেন্ট সক্রিয়ভাবে যা জানে না তা খোঁজে।
র্যান্ডম টিভি সমস্যা
কৌতূহলী শিক্ষায় একটি প্রধান চ্যালেঞ্জ যেখানে একজন এজেন্ট অপ্রত্যাশিত কিন্তু অকেজো এনট্রপি উৎস দ্বারা আবিষ্ট হতে পারে, যেমন একটি টিভি স্ট্যাটিক স্ক্রীন। এটি পরিবেশের গতিবিদ্যা সম্পর্কে অর্থপূর্ণ শিক্ষা ছাড়াই উচ্চ অন্তর্নিহিত পুরস্কারের দিকে নিয়ে যায়।
লেটেন্ট স্টেট স্পেস
পরিবেশের একটি সংকুচিত এবং বিমূর্ত উপস্থাপনা, একটি নিউরাল নেটওয়ার্ক দ্বারা শেখা, যেখানে গতিবিদ্যা মডেল পূর্বাভাস দিতে শেখে। এই স্থানে কাজ করা জটিলতা হ্রাস করে এবং পূর্বাভাসের জন্য প্রাসঙ্গিক বৈশিষ্ট্যগুলিতে ফোকাস করতে সহায়তা করে।
অন্তর্নিহিত পুরস্কার গঠন
অন্তর্নিহিত পুরস্কার সংকেত ডিজাইন এবং ওজন করার প্রক্রিয়া, প্রায়শই এটি কাজের বহিরাগত পুরস্কারের সাথে একত্রিত করে। একটি ভাল গঠন অন্বেষণ এবং শোষণের ভারসাম্য বজায় রাখার জন্য গুরুত্বপূর্ণ।
মডেল শিক্ষা
যে প্রক্রিয়ায় একজন MBRL এজেন্ট পরিবেশের সাথে ইন্টারঅ্যাক্ট করে তার গতিবিদ্যা মডেল উন্নত করে। এই প্রক্রিয়াটি পুনরাবৃত্তিমূলক: মডেলটি অন্বেষণ করতে ব্যবহৃত হয়, এবং সংগ্রহ করা নতুন ডেটা মডেল পরিমার্জন করতে ব্যবহৃত হয়।
মডেল বিস্ময়
একটি ধারণা যা এমন একটি পরিস্থিতি বোঝায় যেখানে এজেন্টের অভিজ্ঞতা তার অভ্যন্তরীণ বিশ্ব মডেলের প্রত্যাশার বিরোধিতা করে। মডেল-ভিত্তিক সিস্টেমে, বিস্ময় সরাসরি মডেলের পূর্বাভাস ত্রুটি দ্বারা পরিমাপ করা হয়।
প্রেডিকশন নেটওয়ার্ক
পরবর্তী লেটেন্ট স্টেটের পূর্বাভাস তৈরি করার জন্য দায়ী ডায়নামিক্স মডেলের নিউরাল কম্পোনেন্ট। এর পারফরম্যান্স, একটি লস ফাংশন দ্বারা মূল্যায়ন করা, সরাসরি কৌতূহল সংকেত নির্ধারণ করে।
অন্তর্নিহিত রিইনফোর্সমেন্ট লার্নিং ফ্রেমওয়ার্ক
রিইনফোর্সমেন্ট লার্নিংয়ের একটি সাধারণ কাঠামো যেখানে এজেন্টের উদ্দেশ্য ফাংশন হল একটি এক্সট্রিনসিক রিওয়ার্ড (টাস্ক-সম্পর্কিত) এবং একটি ইনট্রিনসিক রিওয়ার্ড (এক্সপ্লোরেশন-সম্পর্কিত) এর ওয়েটেড সমষ্টি।
ভেরিয়েশনাল ইনফরমেশন ম্যাক্সিমাইজেশন এক্সপ্লোরেশন (VIME)
এনভায়রনমেন্ট মডেলের প্যারামিটার সম্পর্কে অর্জিত তথ্য সর্বাধিক করার জন্য ভেরিয়েশনাল ইনফারেন্স ব্যবহারকারী একটি আনুষ্ঠানিক পদ্ধতি। এটি তাত্ত্বিকভাবে সু-ভিত্তিক কৌতূহলের পরিমাপ প্রদান করে যা কিছু ফাঁদ এড়ায়।
কৌতূহল সীমা
এজেন্টের কৌতূহল সীমিত করার জন্য একটি মেকানিজম বা তাত্ত্বিক সীমাবদ্ধতা যাতে এটি এমন পরিবেশের দিকে পরিচালিত হয় যা অজানা এবং নিয়ন্ত্রণযোগ্য/শেখার যোগ্য উভয়ই। এটি র্যান্ডম টিভি সমস্যা প্রশমিত করতে সহায়তা করে।