কনজারভেটিভ কিউ-লার্নিং (সিকিউএল) - কৃত্রিম বুদ্ধিমত্তা শব্দাবলী

📖

শব্দ

কনজারভেটিভ কিউ-লার্নিং (CQL)

অফলাইন রিইনফোর্সমেন্ট লার্নিং-এর একটি পদ্ধতি যা সক্রিয়ভাবে কিউ-মানের অতিরিক্ত অনুমানকে শাস্তি দেয়, নীতি আচরণগত ডেটার বিতরণের কাছাকাছি রাখতে এবং বিচ্যুতি এড়াতে।

📖

শব্দ

অফলাইন ডেটার বিতরণ

একটি নির্দিষ্ট এবং পূর্বনির্ধারিত ডেটাসেট যা আচরণগত নীতি থেকে সংগ্রহ করা হয় এবং অফলাইন আরএল প্রশিক্ষণের জন্য একমাত্র তথ্যসূত্র হিসেবে ব্যবহৃত হয়।

📖

শব্দ

কনজারভেটিভ শাস্তি

লস ফাংশনে যুক্ত একটি রেগুলারাইজেশন টার্ম যা প্রশিক্ষণ ডেটায় অনুপস্থিত অবস্থা-ক্রিয়া জোড়ার জন্য উচ্চ কিউ-মানকে শাস্তি দেয়, ফলে অতিরিক্ত মূল্যায়ন রোধ হয়।

📖

শব্দ

কিউ-মানের অতিরিক্ত মূল্যায়ন

অফলাইন আরএল-এর একটি অন্তর্নিহিত সমস্যা যেখানে অদেখা ক্রিয়াগুলির জন্য কিউ-মান কৃত্রিমভাবে বৃদ্ধি পায়, যার ফলে নিম্নমানের এবং অস্থির নীতি তৈরি হয়।

📖

শব্দ

কনজারভেটিভ নীতি

একটি কর্মকৌশল যা ইচ্ছাকৃতভাবে ডেটাসেটে পর্যবেক্ষিত আচরণের কাছাকাছি থাকে, অদেখা ডেটায় এক্সট্রাপোলেশনের কারণে বিচ্যুতির ঝুঁকি কমায়।

📖

শব্দ

বিতরণ সংশোধন

সিকিউএল-এর একটি প্রক্রিয়া যা কিউ-মানের অনুমানকে সামঞ্জস্য করে আচরণগত বিতরণ এবং লক্ষ্য নীতির বিতরণের মধ্যে পার্থক্য সংশোধন করে।

📖

শব্দ

নীতি ব্যবধান

শেখা নীতি এবং আচরণগত নীতির মধ্যে বিচ্যুতির পরিমাপ, যা অফলাইন রিইনফোর্সমেন্ট লার্নিং-এ স্থিতিশীলতা নিশ্চিত করার জন্য গুরুত্বপূর্ণ।

📖

শব্দ

সিকিউএল লস ফাংশন

একটি উদ্দেশ্যমূলক ফাংশন যা স্ট্যান্ডার্ড কিউ-লার্নিং লসের সঙ্গে একটি কনজারভেটিভ টার্ম যুক্ত করে, যা বিতরণের বাইরের ক্রিয়াগুলির জন্য কিউ-মান কমায়, গঠন log(Σexp(Q(s,a))) - Q(s,a')।

📖

শব্দ

নমুনা গুরুত্ব অনুপাত

লক্ষ্য নীতির অধীনে ঘটার সম্ভাবনার তুলনায় আচরণগত নীতির সাপেক্ষে রূপান্তরগুলিকে ওজন করার সহগ, পক্ষপাত সংশোধনের জন্য অপরিহার্য।

📖

শব্দ

বিতরণগত বিচ্যুতি

উপলব্ধ ডেটার বিতরণ এবং শেখা নীতিকে সঠিকভাবে মূল্যায়নের জন্য প্রয়োজনীয় বিতরণের মধ্যে মৌলিক পার্থক্য, অফলাইন আরএল-এর প্রধান চ্যালেঞ্জ।

📖

শব্দ

শিক্ষার স্থিতিশীলতা

সিকিউএল-এর লক্ষ্য যা সীমিত ডেটার ওপর এক্সট্রাপোলেশন থেকে সৃষ্ট দোলন এবং বিচ্যুতি এড়িয়ে অ্যালগরিদমের অভিসৃতি নিশ্চিত করা।

📖

শব্দ

রক্ষণশীল সুরক্ষা ব্যবস্থা

সিকিউএল-এ সংযুক্ত নিরাপত্তা ব্যবস্থা যা প্রশিক্ষণ ডেটাসেটে কম দেখা বা অনুপস্থিত অবস্থা-ক্রিয়া জোড়ার জন্য কিউ-মানের অপ্টিমাইজেশন সীমিত করে।

📖

শব্দ

রক্ষণশীল কিউ-আপডেট

পর্যবেক্ষিত ডেটার ওপর ভিত্তি করে নির্ভরযোগ্য অনুমান সংরক্ষণ করে অতিমূল্যায়নকে শাস্তি দিয়ে কিউ-মান পরিবর্তনকারী পুনরাবৃত্তিমূলক প্রক্রিয়া।

📖

শব্দ

এক্সট্রাপোলেশন ত্রুটি

প্রশিক্ষণ ডেটাসেটে প্রতিনিধিত্ব না করা অবস্থা বা ক্রিয়ার জন্য মডেল যখন পূর্বাভাস দেয় তখন প্রবর্তিত অসঠিকতা, অফলাইন আরএল-এর একটি বড় সমস্যা।

📖

শব্দ

রক্ষণশীল সমালোচক

সিকিউএল-এর একটি উপাদান যা ক্রিয়াগুলিকে রক্ষণশীল পক্ষপাতের সাথে মূল্যায়ন করে, ডেটার অভাবের কারণে সম্ভাব্য অতিমূল্যায়িত ক্রিয়াগুলিকে কম স্কোর প্রদান করে।

📖

শব্দ

সীমাবদ্ধ ক্রিয়া স্থান

ডেটাসেটে পর্যবেক্ষিত ক্রিয়াগুলির মধ্যে সীমাবদ্ধ সম্ভাব্য ক্রিয়াগুলির উপসেট, এক্সট্রাপোলেশনের কৃত্রিম বিষয়গুলিকে কাজে লাগানো নীতির ঝুঁকি হ্রাস করে।

📖

শব্দ

আচরণগত নমুনায়ন

একটি নির্দিষ্ট আচরণগত নীতির অধীনে রূপান্তরগুলি (অবস্থা, ক্রিয়া, পুরস্কার, পরবর্তী অবস্থা) সংগ্রহের প্রক্রিয়া, যা অফলাইন ডেটাসেট গঠন করে।

📖

শব্দ

নীতির বিচ্যুতি

এমন একটি ঘটনা যেখানে শেখা নীতি বিপজ্জনকভাবে ডেটার বণ্টন থেকে সরে যায়, যার ফলে কার্যকারিতা হ্রাস পায় বা শিক্ষণ সম্পূর্ণভাবে ভেঙে পড়ে।

এআই গ্লসারি

কনজারভেটিভ কিউ-লার্নিং (CQL)

অফলাইন ডেটার বিতরণ

কনজারভেটিভ শাস্তি

কিউ-মানের অতিরিক্ত মূল্যায়ন

কনজারভেটিভ নীতি

বিতরণ সংশোধন

নীতি ব্যবধান

সিকিউএল লস ফাংশন

নমুনা গুরুত্ব অনুপাত

বিতরণগত বিচ্যুতি

শিক্ষার স্থিতিশীলতা

রক্ষণশীল সুরক্ষা ব্যবস্থা

রক্ষণশীল কিউ-আপডেট

এক্সট্রাপোলেশন ত্রুটি

রক্ষণশীল সমালোচক

সীমাবদ্ধ ক্রিয়া স্থান

আচরণগত নমুনায়ন

নীতির বিচ্যুতি

কোন ফলাফল পাওয়া যায়নি