এআই গ্লসারি
কৃত্রিম বুদ্ধিমত্তার সম্পূর্ণ অভিধান
কনজারভেটিভ কিউ-লার্নিং (CQL)
অফলাইন রিইনফোর্সমেন্ট লার্নিং-এর একটি পদ্ধতি যা সক্রিয়ভাবে কিউ-মানের অতিরিক্ত অনুমানকে শাস্তি দেয়, নীতি আচরণগত ডেটার বিতরণের কাছাকাছি রাখতে এবং বিচ্যুতি এড়াতে।
অফলাইন ডেটার বিতরণ
একটি নির্দিষ্ট এবং পূর্বনির্ধারিত ডেটাসেট যা আচরণগত নীতি থেকে সংগ্রহ করা হয় এবং অফলাইন আরএল প্রশিক্ষণের জন্য একমাত্র তথ্যসূত্র হিসেবে ব্যবহৃত হয়।
কনজারভেটিভ শাস্তি
লস ফাংশনে যুক্ত একটি রেগুলারাইজেশন টার্ম যা প্রশিক্ষণ ডেটায় অনুপস্থিত অবস্থা-ক্রিয়া জোড়ার জন্য উচ্চ কিউ-মানকে শাস্তি দেয়, ফলে অতিরিক্ত মূল্যায়ন রোধ হয়।
কিউ-মানের অতিরিক্ত মূল্যায়ন
অফলাইন আরএল-এর একটি অন্তর্নিহিত সমস্যা যেখানে অদেখা ক্রিয়াগুলির জন্য কিউ-মান কৃত্রিমভাবে বৃদ্ধি পায়, যার ফলে নিম্নমানের এবং অস্থির নীতি তৈরি হয়।
কনজারভেটিভ নীতি
একটি কর্মকৌশল যা ইচ্ছাকৃতভাবে ডেটাসেটে পর্যবেক্ষিত আচরণের কাছাকাছি থাকে, অদেখা ডেটায় এক্সট্রাপোলেশনের কারণে বিচ্যুতির ঝুঁকি কমায়।
বিতরণ সংশোধন
সিকিউএল-এর একটি প্রক্রিয়া যা কিউ-মানের অনুমানকে সামঞ্জস্য করে আচরণগত বিতরণ এবং লক্ষ্য নীতির বিতরণের মধ্যে পার্থক্য সংশোধন করে।
নীতি ব্যবধান
শেখা নীতি এবং আচরণগত নীতির মধ্যে বিচ্যুতির পরিমাপ, যা অফলাইন রিইনফোর্সমেন্ট লার্নিং-এ স্থিতিশীলতা নিশ্চিত করার জন্য গুরুত্বপূর্ণ।
সিকিউএল লস ফাংশন
একটি উদ্দেশ্যমূলক ফাংশন যা স্ট্যান্ডার্ড কিউ-লার্নিং লসের সঙ্গে একটি কনজারভেটিভ টার্ম যুক্ত করে, যা বিতরণের বাইরের ক্রিয়াগুলির জন্য কিউ-মান কমায়, গঠন log(Σexp(Q(s,a))) - Q(s,a')।
নমুনা গুরুত্ব অনুপাত
লক্ষ্য নীতির অধীনে ঘটার সম্ভাবনার তুলনায় আচরণগত নীতির সাপেক্ষে রূপান্তরগুলিকে ওজন করার সহগ, পক্ষপাত সংশোধনের জন্য অপরিহার্য।
বিতরণগত বিচ্যুতি
উপলব্ধ ডেটার বিতরণ এবং শেখা নীতিকে সঠিকভাবে মূল্যায়নের জন্য প্রয়োজনীয় বিতরণের মধ্যে মৌলিক পার্থক্য, অফলাইন আরএল-এর প্রধান চ্যালেঞ্জ।
শিক্ষার স্থিতিশীলতা
সিকিউএল-এর লক্ষ্য যা সীমিত ডেটার ওপর এক্সট্রাপোলেশন থেকে সৃষ্ট দোলন এবং বিচ্যুতি এড়িয়ে অ্যালগরিদমের অভিসৃতি নিশ্চিত করা।
রক্ষণশীল সুরক্ষা ব্যবস্থা
সিকিউএল-এ সংযুক্ত নিরাপত্তা ব্যবস্থা যা প্রশিক্ষণ ডেটাসেটে কম দেখা বা অনুপস্থিত অবস্থা-ক্রিয়া জোড়ার জন্য কিউ-মানের অপ্টিমাইজেশন সীমিত করে।
রক্ষণশীল কিউ-আপডেট
পর্যবেক্ষিত ডেটার ওপর ভিত্তি করে নির্ভরযোগ্য অনুমান সংরক্ষণ করে অতিমূল্যায়নকে শাস্তি দিয়ে কিউ-মান পরিবর্তনকারী পুনরাবৃত্তিমূলক প্রক্রিয়া।
এক্সট্রাপোলেশন ত্রুটি
প্রশিক্ষণ ডেটাসেটে প্রতিনিধিত্ব না করা অবস্থা বা ক্রিয়ার জন্য মডেল যখন পূর্বাভাস দেয় তখন প্রবর্তিত অসঠিকতা, অফলাইন আরএল-এর একটি বড় সমস্যা।
রক্ষণশীল সমালোচক
সিকিউএল-এর একটি উপাদান যা ক্রিয়াগুলিকে রক্ষণশীল পক্ষপাতের সাথে মূল্যায়ন করে, ডেটার অভাবের কারণে সম্ভাব্য অতিমূল্যায়িত ক্রিয়াগুলিকে কম স্কোর প্রদান করে।
সীমাবদ্ধ ক্রিয়া স্থান
ডেটাসেটে পর্যবেক্ষিত ক্রিয়াগুলির মধ্যে সীমাবদ্ধ সম্ভাব্য ক্রিয়াগুলির উপসেট, এক্সট্রাপোলেশনের কৃত্রিম বিষয়গুলিকে কাজে লাগানো নীতির ঝুঁকি হ্রাস করে।
আচরণগত নমুনায়ন
একটি নির্দিষ্ট আচরণগত নীতির অধীনে রূপান্তরগুলি (অবস্থা, ক্রিয়া, পুরস্কার, পরবর্তী অবস্থা) সংগ্রহের প্রক্রিয়া, যা অফলাইন ডেটাসেট গঠন করে।
নীতির বিচ্যুতি
এমন একটি ঘটনা যেখানে শেখা নীতি বিপজ্জনকভাবে ডেটার বণ্টন থেকে সরে যায়, যার ফলে কার্যকারিতা হ্রাস পায় বা শিক্ষণ সম্পূর্ণভাবে ভেঙে পড়ে।