🏠 হোম
বেঞ্চমার্ক
📊 সমস্ত বেঞ্চমার্ক 🦖 ডাইনোসর v1 🦖 ডাইনোসর v2 ✅ টু-ডু লিস্ট অ্যাপস 🎨 সৃজনশীল ফ্রি পেজ 🎯 FSACB - চূড়ান্ত শোকেস 🌍 অনুবাদ বেঞ্চমার্ক
মডেল
🏆 সেরা ১০টি মডেল 🆓 ফ্রি মডেল 📋 সমস্ত মডেল ⚙️ কিলো কোড
রিসোর্স
💬 প্রম্পট লাইব্রেরি 📖 এআই গ্লসারি 🔗 দরকারী লিঙ্ক

এআই গ্লসারি

কৃত্রিম বুদ্ধিমত্তার সম্পূর্ণ অভিধান

238
বিভাগ
3,112
উপ-বিভাগ
36,890
শব্দ
📖
শব্দ

কনজারভেটিভ কিউ-লার্নিং (CQL)

অফলাইন রিইনফোর্সমেন্ট লার্নিং-এর একটি পদ্ধতি যা সক্রিয়ভাবে কিউ-মানের অতিরিক্ত অনুমানকে শাস্তি দেয়, নীতি আচরণগত ডেটার বিতরণের কাছাকাছি রাখতে এবং বিচ্যুতি এড়াতে।

📖
শব্দ

অফলাইন ডেটার বিতরণ

একটি নির্দিষ্ট এবং পূর্বনির্ধারিত ডেটাসেট যা আচরণগত নীতি থেকে সংগ্রহ করা হয় এবং অফলাইন আরএল প্রশিক্ষণের জন্য একমাত্র তথ্যসূত্র হিসেবে ব্যবহৃত হয়।

📖
শব্দ

কনজারভেটিভ শাস্তি

লস ফাংশনে যুক্ত একটি রেগুলারাইজেশন টার্ম যা প্রশিক্ষণ ডেটায় অনুপস্থিত অবস্থা-ক্রিয়া জোড়ার জন্য উচ্চ কিউ-মানকে শাস্তি দেয়, ফলে অতিরিক্ত মূল্যায়ন রোধ হয়।

📖
শব্দ

কিউ-মানের অতিরিক্ত মূল্যায়ন

অফলাইন আরএল-এর একটি অন্তর্নিহিত সমস্যা যেখানে অদেখা ক্রিয়াগুলির জন্য কিউ-মান কৃত্রিমভাবে বৃদ্ধি পায়, যার ফলে নিম্নমানের এবং অস্থির নীতি তৈরি হয়।

📖
শব্দ

কনজারভেটিভ নীতি

একটি কর্মকৌশল যা ইচ্ছাকৃতভাবে ডেটাসেটে পর্যবেক্ষিত আচরণের কাছাকাছি থাকে, অদেখা ডেটায় এক্সট্রাপোলেশনের কারণে বিচ্যুতির ঝুঁকি কমায়।

📖
শব্দ

বিতরণ সংশোধন

সিকিউএল-এর একটি প্রক্রিয়া যা কিউ-মানের অনুমানকে সামঞ্জস্য করে আচরণগত বিতরণ এবং লক্ষ্য নীতির বিতরণের মধ্যে পার্থক্য সংশোধন করে।

📖
শব্দ

নীতি ব্যবধান

শেখা নীতি এবং আচরণগত নীতির মধ্যে বিচ্যুতির পরিমাপ, যা অফলাইন রিইনফোর্সমেন্ট লার্নিং-এ স্থিতিশীলতা নিশ্চিত করার জন্য গুরুত্বপূর্ণ।

📖
শব্দ

সিকিউএল লস ফাংশন

একটি উদ্দেশ্যমূলক ফাংশন যা স্ট্যান্ডার্ড কিউ-লার্নিং লসের সঙ্গে একটি কনজারভেটিভ টার্ম যুক্ত করে, যা বিতরণের বাইরের ক্রিয়াগুলির জন্য কিউ-মান কমায়, গঠন log(Σexp(Q(s,a))) - Q(s,a')।

📖
শব্দ

নমুনা গুরুত্ব অনুপাত

লক্ষ্য নীতির অধীনে ঘটার সম্ভাবনার তুলনায় আচরণগত নীতির সাপেক্ষে রূপান্তরগুলিকে ওজন করার সহগ, পক্ষপাত সংশোধনের জন্য অপরিহার্য।

📖
শব্দ

বিতরণগত বিচ্যুতি

উপলব্ধ ডেটার বিতরণ এবং শেখা নীতিকে সঠিকভাবে মূল্যায়নের জন্য প্রয়োজনীয় বিতরণের মধ্যে মৌলিক পার্থক্য, অফলাইন আরএল-এর প্রধান চ্যালেঞ্জ।

📖
শব্দ

শিক্ষার স্থিতিশীলতা

সিকিউএল-এর লক্ষ্য যা সীমিত ডেটার ওপর এক্সট্রাপোলেশন থেকে সৃষ্ট দোলন এবং বিচ্যুতি এড়িয়ে অ্যালগরিদমের অভিসৃতি নিশ্চিত করা।

📖
শব্দ

রক্ষণশীল সুরক্ষা ব্যবস্থা

সিকিউএল-এ সংযুক্ত নিরাপত্তা ব্যবস্থা যা প্রশিক্ষণ ডেটাসেটে কম দেখা বা অনুপস্থিত অবস্থা-ক্রিয়া জোড়ার জন্য কিউ-মানের অপ্টিমাইজেশন সীমিত করে।

📖
শব্দ

রক্ষণশীল কিউ-আপডেট

পর্যবেক্ষিত ডেটার ওপর ভিত্তি করে নির্ভরযোগ্য অনুমান সংরক্ষণ করে অতিমূল্যায়নকে শাস্তি দিয়ে কিউ-মান পরিবর্তনকারী পুনরাবৃত্তিমূলক প্রক্রিয়া।

📖
শব্দ

এক্সট্রাপোলেশন ত্রুটি

প্রশিক্ষণ ডেটাসেটে প্রতিনিধিত্ব না করা অবস্থা বা ক্রিয়ার জন্য মডেল যখন পূর্বাভাস দেয় তখন প্রবর্তিত অসঠিকতা, অফলাইন আরএল-এর একটি বড় সমস্যা।

📖
শব্দ

রক্ষণশীল সমালোচক

সিকিউএল-এর একটি উপাদান যা ক্রিয়াগুলিকে রক্ষণশীল পক্ষপাতের সাথে মূল্যায়ন করে, ডেটার অভাবের কারণে সম্ভাব্য অতিমূল্যায়িত ক্রিয়াগুলিকে কম স্কোর প্রদান করে।

📖
শব্দ

সীমাবদ্ধ ক্রিয়া স্থান

ডেটাসেটে পর্যবেক্ষিত ক্রিয়াগুলির মধ্যে সীমাবদ্ধ সম্ভাব্য ক্রিয়াগুলির উপসেট, এক্সট্রাপোলেশনের কৃত্রিম বিষয়গুলিকে কাজে লাগানো নীতির ঝুঁকি হ্রাস করে।

📖
শব্দ

আচরণগত নমুনায়ন

একটি নির্দিষ্ট আচরণগত নীতির অধীনে রূপান্তরগুলি (অবস্থা, ক্রিয়া, পুরস্কার, পরবর্তী অবস্থা) সংগ্রহের প্রক্রিয়া, যা অফলাইন ডেটাসেট গঠন করে।

📖
শব্দ

নীতির বিচ্যুতি

এমন একটি ঘটনা যেখানে শেখা নীতি বিপজ্জনকভাবে ডেটার বণ্টন থেকে সরে যায়, যার ফলে কার্যকারিতা হ্রাস পায় বা শিক্ষণ সম্পূর্ণভাবে ভেঙে পড়ে।

🔍

কোন ফলাফল পাওয়া যায়নি