এআই গ্লসারি
কৃত্রিম বুদ্ধিমত্তার সম্পূর্ণ অভিধান
কল্পনা শেখা
একটি শক্তিবৃদ্ধি শেখার কৌশল যেখানে এজেন্ট অভ্যন্তরীণ মডেল ব্যবহার করে মানসিকভাবে পরিস্থিতি সিমুলেট করে এবং প্রকৃত পরিবেশের সাথে মিথস্ক্রিয়া ছাড়াই অভিজ্ঞতা তৈরি করে। এই পদ্ধতিটি বাস্তবায়নের আগে ভার্চুয়ালি কর্মের ট্রাজেক্টরি অন্বেষণ করে শেখার গতি বাড়ায়।
মানসিক পরিকল্পনা
জ্ঞানীয় প্রক্রিয়া যেখানে এজেন্ট সেরাটি নির্বাচন করার আগে মানসিকভাবে বিভিন্ন কর্মের ক্রম অন্বেষণ এবং মূল্যায়ন করে। এই কৌশলটি প্রকৃত মিথস্ক্রিয়া খরচ ছাড়াই ভবিষ্যতের পরিণতি পূর্বাভাস দেওয়ার জন্য অভ্যন্তরীণ মডেল ব্যবহার করে।
পরিবেশ সিমুলেশন
এজেন্টের প্রশিক্ষণের জন্য অতিরিক্ত প্রশিক্ষণ ডেটা তৈরি করতে শেখা মডেল ব্যবহার করে কৃত্রিমভাবে পরিবেশগত অভিজ্ঞতা তৈরি করা। এই পদ্ধতিটি এজেন্টের প্রশিক্ষণের জন্য উপলব্ধ ডেটা ব্যাপকভাবে বৃদ্ধি করতে দেয়।
এআই স্বপ্ন
একটি প্রক্রিয়া যেখানে একটি এআই এজেন্ট নিষ্ক্রিয়তার সময়কালে কাল্পনিক অবস্থার ক্রম তৈরি এবং প্রক্রিয়া করে তার শেখার একত্রীকরণের জন্য। এই সিমুলেটেড স্বপ্নগুলি পরিবেশগত মিথস্ক্রিয়া ছাড়াই মডেলের দৃঢ়তা উন্নত করতে দেয়।
কল্পনামূলক অভিজ্ঞতা
প্রশিক্ষণের জন্য প্রকৃত অভিজ্ঞতার পরিপূরক হিসাবে ব্যবহৃত মানসিক সিমুলেশনের মাধ্যমে এজেন্ট দ্বারা তৈরি ডেটা। এই সিন্থেটিক অভিজ্ঞতাগুলি প্রকৃত মিথস্ক্রিয়াগুলির মতো একই কাঠামো অনুসরণ করে কিন্তু অভ্যন্তরীণ মডেল দ্বারা উত্পাদিত হয়।
কল্পিত ট্রাজেক্টরি
এর অভ্যন্তরীণ পরিবেশ মডেল ব্যবহার করে এজেন্ট দ্বারা সিমুলেটেড অবস্থা-কর্ম-পুরস্কারের ক্রম। এই ভার্চুয়াল ট্রাজেক্টরিগুলি প্রকৃত ঝুঁকি বা খরচ ছাড়াই বিকল্প নীতিগুলি অন্বেষণ করতে দেয়।
কল্পনা বাফার
এজেন্টের পরবর্তী প্রশিক্ষণের জন্য কল্পনা দ্বারা উত্পন্ন অভিজ্ঞতা সংরক্ষণকারী মেমোরি স্পেস। এই বাফারটি প্রশিক্ষণ কর্পাস সমৃদ্ধ করার জন্য প্রকৃত অভিজ্ঞতা বাফারের পাশাপাশি কাজ করে।
অন্তর্নিহিত কৌতূহল
অভ্যন্তরীণ প্রেরণার প্রক্রিয়া যা এজেন্টকে তার পরিবেশ মডেলে অজানা বা অপ্রত্যাশিত অবস্থা অন্বেষণ করতে চালিত করে। এই কৌতূহল মডেল উন্নত করার জন্য তথ্যপূর্ণ পরিস্থিতির দিকে কল্পনাকে নির্দেশিত করে।
মডেল নির্দেশিত অনুসন্ধান
সবচেয়ে প্রতিশ্রুতিশীল ক্রিয়াগুলি চিহ্নিত করতে অভ্যন্তরীণ মডেলের পূর্বাভাস ব্যবহার করে অনুসন্ধান কৌশল। এজেন্ট উচ্চ অনিশ্চয়তা বা উচ্চ পুরস্কার সম্ভাবনা সহ রাজ্যগুলির দিকে নিয়ে যাওয়া সিমুলেশনগুলিকে অগ্রাধিকার দেয়।
ভার্চুয়াল ট্রায়াল এবং এরর শেখা
নীতির উন্নতির প্রক্রিয়া যেখানে এজেন্ট বাস্তব মিথস্ক্রিয়া ছাড়াই তাদের পরিণতি থেকে শিখতে সিমুলেশনে ক্রিয়াগুলি পরীক্ষা করে। এই পদ্ধতিটি শারীরিক অনুসন্ধানের সাথে যুক্ত ব্যয় এবং ঝুঁকি দূর করে।
ভবিষ্যত রাজ্য পূর্বাভাস
একাধিক সময় ধাপে পরিবেশের ভবিষ্যত রাজ্যগুলি পূর্বাভাস দেওয়ার জন্য অভ্যন্তরীণ মডেলের ক্ষমতা। কার্যকর কাল্পনিক পরিকল্পনার জন্য এই বহু-ধাপ পূর্বাভাস অপরিহার্য।
পরিবেশগত গতিবিদ্যা
শেখার পরিবেশে রাজ্যগুলির মধ্যে রূপান্তর নিয়ন্ত্রণকারী নিয়মগুলির গাণিতিক মডেলিং। বাস্তবসম্মত কাল্পনিক সিমুলেশনের জন্য এই গতিবিদ্যার সঠিক বোঝা অত্যন্ত গুরুত্বপূর্ণ।
কাল্পনিক রোলআউট
কেবলমাত্র অভ্যন্তরীণ মডেল এবং একটি প্রার্থী নীতি ব্যবহার করে একটি প্রদত্ত রাজ্য থেকে একটি সম্পূর্ণ ট্র্যাজেক্টরি সিমুলেশন। কাল্পনিক রোলআউটগুলি বিভিন্ন ক্রিয়া কৌশলের গুণমান দ্রুত মূল্যায়ন করতে দেয়।