এআই গ্লসারি
কৃত্রিম বুদ্ধিমত্তার সম্পূর্ণ অভিধান
মডেল-ভিত্তিক অফলাইন আরএল
অফলাইন রিইনফোর্সমেন্ট লার্নিং-এর একটি পদ্ধতি যা পরিবেশের একটি গতিশীল মডেল শেখে সিন্থেটিক ডেটা তৈরি করতে এবং বাস্তব মিথস্ক্রিয়া ছাড়াই নীতিকে উন্নত করতে।
কল্পনা রোলআউটস
পরিবেশের শেখা মডেল ব্যবহার করে সিমুলেটেড ট্র্যাজেক্টরি তৈরি করা, যা বাস্তব পরিবেশের সাথে মিথস্ক্রিয়া ছাড়াই সম্ভাব্য ভবিষ্যৎ অবস্থাগুলি অন্বেষণ করে।
রক্ষণশীল নীতি অপ্টিমাইজেশন
একটি অ্যালগরিদম যা প্রশিক্ষণ ডেটার আচরণ থেকে উল্লেখযোগ্যভাবে বিচ্যুত নীতিগুলিকে স্পষ্টভাবে শাস্তি দেয় যাতে এক্সট্রাপোলেশন ত্রুটি এড়ানো যায়।
অনিশ্চয়তা পরিমাপ
মডেলের গতিশীলতার অনিশ্চয়তা অনুমান করার একটি কৌশল যা ডিস্ট্রিবিউশনের বাইরের অঞ্চলে অন্বেষণকে নির্দেশ করে এবং বিপর্যয়কর ত্রুটি এড়াতে সহায়তা করে।
এনসেম্বল মডেলস
বিভিন্ন ইনিশিয়ালাইজেশন দিয়ে প্রশিক্ষিত একাধিক গতিশীল মডেলের সংগ্রহ যা এপিস্টেমিক অনিশ্চয়তা অনুমান করতে পূর্বাভাসের ভ্যারিয়েন্স ব্যবহার করে।
ট্র্যাজেক্টরি ট্রান্সফরমার্স
ট্রান্সফরমার আর্কিটেকচার যা ট্র্যাজেক্টরিগুলিকে অবস্থা, ক্রিয়া এবং পুরস্কারের ক্রম হিসেবে মডেল করে অফলাইন লার্নিং-এ ভবিষ্যৎ ট্রানজিশনগুলির পূর্বাভাস দেয়।
অফলাইন-টু-অনলাইন ট্রান্সফার
অফলাইনে শেখা নীতিকে অনলাইন পরিবেশে স্থানান্তর করার প্রক্রিয়া, যেখানে বাস্তব মিথস্ক্রিয়ার মাধ্যমে ক্রমাগত পরিমার্জন ও অভিযোজন করা হয়।
মডেল এনসেম্বলিং
একাধিক গতিশীল মডেল ব্যবহার করার কৌশল যা অবস্থার ট্রানজিশন সম্পর্কে বিভিন্ন অনুমান ধারণ করে এবং পূর্বাভাসের দৃঢ়তা উন্নত করে।
অ্যাডভান্টেজ ওয়েটেড রিগ্রেশন
একটি অফলাইন পদ্ধতি যা প্রশিক্ষণ ডেটার কর্মগুলিকে তাদের অনুমানকৃত সুবিধা অনুযায়ী ওজন করে, নীতিকে কেবল ক্লোনিংয়ের বাইরে উন্নত করতে।
ডিস্ট্রিবিউশন-বহির্ভূত সনাক্তকরণ
একটি প্রক্রিয়া যা শনাক্ত করে যখন মডেল দ্বারা উৎপন্ন অবস্থাগুলি মূল প্রশিক্ষণ ডেটার বিতরণ থেকে উল্লেখযোগ্যভাবে বিচ্যুত হয়।