এআই গ্লসারি
কৃত্রিম বুদ্ধিমত্তার সম্পূর্ণ অভিধান
ব্যাচ কনস্ট্রেইনড কিউ-লার্নিং (BCQ)
অফলাইন রিইনফোর্সমেন্ট লার্নিং অ্যালগরিদম যা নীতিগুলোকে প্রশিক্ষণ ডেটাসেটে পর্যবেক্ষিত ক্রিয়াগুলোর কাছাকাছি রাখার মাধ্যমে এক্সট্রাপোলেশন ত্রুটি এড়ায়। BCQ একটি অ্যাকশন জেনারেটর মডেল ব্যবহার করে যা ব্যাচের মতো ক্রিয়া তৈরি করে এবং সামান্য ভিন্নতা অন্বেষণ করে।
ডিস্ট্রিবিউশন শিফট
একটি ঘটনা যেখানে শেখা নীতির দ্বারা পরিদর্শিত অবস্থা-ক্রিয়ার বিতরণ অফলাইন ডেটাসেটের বিতরণ থেকে উল্লেখযোগ্যভাবে আলাদা হয়। এই বিচ্যুতি মান অনুমানকে পক্ষপাতদুষ্ট করতে পারে এবং স্থাপনার সময় কর্মক্ষমতা হ্রাস করতে পারে।
অফলাইন রিইনফোর্সমেন্ট লার্নিং
শিক্ষার একটি দৃষ্টান্ত যেখানে এজেন্ট পূর্বে সংগৃহীত একটি নির্দিষ্ট ডেটাসেট থেকে শেখে, পরিবেশের সাথে কোনো ইন্টারঅ্যাকশন ছাড়াই। এই পদ্ধতি তখন গুরুত্বপূর্ণ যখন রিয়েল-টাইম অন্বেষণ ব্যয়বহুল বা বিপজ্জনক হয়।
বিহেভিয়ার ক্লোনিং
একটি সুপারভাইজড লার্নিং কৌশল যা পুরস্কারের সংকেত ব্যবহার না করে প্রদর্শনমূলক ডেটা থেকে সরাসরি বিশেষজ্ঞের ক্রিয়া অনুকরণ করে। যদিও সহজ, এই পদ্ধতিটি স্থাপনার সময় ক্যাসকেড ত্রুটির সঞ্চয়নের সমস্যায় ভুগতে পারে।
ইমপ্লিসিট কিউ-লার্নিং
একটি পদ্ধতি যা বিতরণের বাইরের ক্রিয়াগুলোর সরাসরি মূল্যায়ন এড়িয়ে অন্তর্নিহিতভাবে Q ফাংশন শেখে। IQL শেখার প্রক্রিয়াকে একটি এক্সপেকটাইল লার্নিং সমস্যা হিসেবে গঠন করে অফলাইন ডেটায় অনিশ্চয়তা ভালোভাবে পরিচালনা করে।
আউট-অফ-ডিস্ট্রিবিউশন অ্যাকশনস
শেখা নীতির দ্বারা উৎপন্ন ক্রিয়াগুলো যা প্রশিক্ষণ ডেটাসেটে দেখা যায়নি বা খুব কম দেখা গেছে। এই ক্রিয়াগুলো অফলাইন RL-এ বড় ঝুঁকি তৈরি করে কারণ এগুলোর মান নির্ভরযোগ্যভাবে অনুমান করা যায় না।
পলিসি কনস্ট্রেইন্ট
একটি প্রক্রিয়া যা শেখা নীতিকে অফলাইন ডেটা ব্যাচে উপস্থিত ক্রিয়াগুলোর মতো ক্রিয়া তৈরি করতে সীমাবদ্ধ করে। এই সীমাবদ্ধতা জরিমানা, ডাইভারজেন্স বা শর্তাধীন জেনারেটিভ মডেলের মাধ্যমে প্রয়োগ করা যেতে পারে।
পার্টারবেশন মডেল
BCQ-এর একটি উপাদান যা আচরণগত ক্রিয়াগুলোর চারপাশে বৈচিত্র্য তৈরি করে স্থানীয়ভাবে ক্রিয়া স্থানের অন্বেষণ করে। এই মডেলটি পর্যবেক্ষিত ক্রিয়াগুলোতে নিয়ন্ত্রিত শব্দ যোগ করে এবং তাদের সম্ভাব্যতা নিশ্চিত করে।
মান ফাংশন অনুমান
অফলাইন ডেটা থেকে Q-মান অনুমানের প্রক্রিয়া, যেখানে অন্বেষণের অনুপস্থিতির কারণে সম্ভাব্য পক্ষপাত বিবেচনা করা হয়। আধুনিক পদ্ধতিগুলি অতিরিক্ত অপ্টিমাইজেশন এড়াতে রক্ষণশীল অবমূল্যায়ন কৌশল ব্যবহার করে।
ব্যাচ আরএল
শক্তিশালী শিক্ষণ কাঠামো যেখানে এজেন্টের কাছে একটি নির্দিষ্ট পরিমাণ ট্রানজিশন ডেটা থাকে এবং অতিরিক্ত মিথস্ক্রিয়া ছাড়াই একটি সর্বোত্তম নীতি শিখতে হয়। এই প্রেক্ষাপটে অ্যালগরিদমগুলিকে ডাইভারজেন্স এড়ানোর জন্য নির্দিষ্ট সীমাবদ্ধতা আরোপ করা হয়।
নিরাপত্তা সীমাবদ্ধতা
অফলাইন নীতিগুলির উপর আরোপিত সীমাবদ্ধতা, যা নিশ্চিত করে যে উৎপন্ন ক্রিয়াগুলি অবস্থা-ক্রিয়া স্থানের নিরাপদ অঞ্চলের মধ্যে থাকে। রোবোটিক্স বা চিকিৎসার মতো প্রয়োগে এই সীমাবদ্ধতাগুলি অত্যন্ত গুরুত্বপূর্ণ।
ক্রিয়া পুনরাবৃত্তি
অফলাইন আরএল-এ ব্যবহৃত কৌশল যা ডেটায় পর্যবেক্ষিত ক্রিয়াগুলির অনুরূপ ক্রিয়া পুনরাবৃত্তি করে স্থিতিশীলতা উন্নত করে। এই কৌশলটি সম্পূর্ণ নতুন এবং সম্ভাব্য বিপজ্জনক ক্রিয়া উৎপন্নের ঝুঁকি হ্রাস করে।
অনিশ্চয়তা অনুমান
ব্যাচে পর্যবেক্ষিত হয়নি এমন ক্রিয়াগুলির মান অনুমানের সাথে সম্পর্কিত অনিশ্চয়তার পরিমাপ। অনিশ্চয়তার সঠিক অনুমান বিতরণের বাইরের ক্রিয়াগুলিকে শাস্তি দেওয়ার এবং দৃঢ়তা উন্নত করার সুযোগ দেয়।
মডেল-ভিত্তিক আরএল
অফলাইন ডেটা থেকে পরিবেশের গতিশীলতার একটি মডেল শেখার পদ্ধতি, যা কৃত্রিম অভিজ্ঞতা তৈরি করতে ব্যবহৃত হয়। অফলাইন প্রেক্ষাপটে, ত্রুটির বিস্তার এড়াতে এই মডেলটি সতর্কতার সাথে ব্যবহার করতে হয়।
নীতি মূল্যায়ন
পরিবেশের সাথে মিথস্ক্রিয়া ছাড়াই কেবলমাত্র অফলাইন ডেটা ব্যবহার করে একটি নীতির কার্যকারিতা মূল্যায়নের ধাপ। স্থাপনার আগে শিক্ষাগুলি যাচাই করার জন্য এই ধাপটি অত্যন্ত গুরুত্বপূর্ণ।
নীতি উন্নয়ন
ব্যাচ অফলাইন ডেটা থেকে গণনা করা মান অনুমান ব্যবহার করে নীতির পুনরাবৃত্তিমূলক উন্নয়নের প্রক্রিয়া। উন্নয়নটি বিতরণের সীমাবদ্ধতা মেনে চলতে হবে যাতে বৈধতা বজায় থাকে।
বুটস্ট্র্যাপিং ত্রুটি
যখন একটি নীতি তার নিজস্ব মূল্য অনুমান ব্যবহার করে উন্নতি করার চেষ্টা করে, তখন যে ত্রুটি জমা হয় এবং যার ফলে ডেটার সাপোর্ট থেকে বিচ্যুতি ঘটে। অফলাইন পদ্ধতিগুলি এই পক্ষপাত নিয়ন্ত্রণ করার জন্য বিশেষ কৌশল ব্যবহার করে।