এআই গ্লসারি
কৃত্রিম বুদ্ধিমত্তার সম্পূর্ণ অভিধান
মডেল-ভিত্তিক রিইনফোর্সমেন্ট লার্নিং
রিইনফোর্সমেন্ট লার্নিংয়ের একটি পদ্ধতি যেখানে এজেন্ট পরিবেশের একটি অভ্যন্তরীণ মডেল তৈরি করে বাস্তব মিথস্ক্রিয়া ছাড়াই ট্রানজিশন সিমুলেট এবং অভিজ্ঞতা তৈরি করার জন্য।
ডায়না-কিউ
একটি হাইব্রিড রিইনফোর্সমেন্ট লার্নিং অ্যালগরিদম যা বাস্তব অভিজ্ঞতা থেকে সরাসরি লার্নিং এবং শেখা মডেল ব্যবহার করে পরিকল্পনার মাধ্যমে অতিরিক্ত সিমুলেটেড অভিজ্ঞতা তৈরি করার সমন্বয় করে।
সরাসরি শেখা
একটি প্রক্রিয়া যেখানে পরিবেশের সাথে মিথস্ক্রিয়ার সময় অর্জিত বাস্তব অভিজ্ঞতার ভিত্তিতে একচেটিয়াভাবে অ্যাকশন ভ্যালু বা পলিসি আপডেট করা হয়।
রিইনফোর্সমেন্ট লার্নিংয়ে পরিকল্পনা
বাস্তব পরিবেশের সাথে অতিরিক্ত মিথস্ক্রিয়া ছাড়াই সিন্থেটিক অভিজ্ঞতা তৈরি করে এবং পলিসি উন্নত করার জন্য পরিবেশগত মডেল ব্যবহার করা।
ট্রানজিশন মডেল
প্রেডিক্টিভ এনভায়রনমেন্ট মডেলের একটি উপাদান যা বর্তমান স্টেট এবং অ্যাকশন দেওয়া হলে পরবর্তী স্টেটগুলির সম্ভাব্যতা বন্টন অনুমান করে।
রিওয়ার্ড মডেল
একটি শেখা ফাংশন যা রিইনফোর্সমেন্ট লার্নিং পরিবেশে প্রতিটি স্টেট-অ্যাকশন জোড়ার জন্য প্রত্যাশিত রিওয়ার্ড ভবিষ্যদ্বাণী করে।
সিমুলেটেড অভিজ্ঞতা
পরিবেশের অভ্যন্তরীণ মডেল দ্বারা কৃত্রিমভাবে তৈরি নমুনা যা অতিরিক্ত বাস্তব মিথস্ক্রিয়া প্রয়োজন ছাড়াই লার্নিং ত্বরান্বিত করার জন্য।
ভ্যালু আপডেট
পর্যবেক্ষণকৃত রিওয়ার্ড এবং বেলম্যান সমীকরণ অনুযায়ী ভবিষ্যত স্টেটগুলির ভ্যালুর ভিত্তিতে অ্যাকশন ভ্যালু Q(s,a) এর অনুমান সামঞ্জস্য করার পুনরাবৃত্তিমূলক প্রক্রিয়া।
অভিজ্ঞতার স্মৃতি
পরিকল্পনা পর্যায়ে বারবার আপডেট করার অনুমতি দেওয়ার জন্য (অবস্থা, ক্রিয়া, পুরস্কার, পরবর্তী_অবস্থা) ট্রিপলেট সংরক্ষণকারী ডেটা স্ট্রাকচার।
ডাইনা-কিউ+
পরিবেশগত পরিবর্তন সনাক্ত করতে এবং অভিযোজিত হওয়ার জন্য শেষ অবস্থা-ক্রিয়া পরিদর্শনের সময়ের উপর ভিত্তি করে একটি অন্বেষণ প্রক্রিয়া সংহত করে ডাইনা-কিউ-এর সম্প্রসারণ।
স্ক্যান অগ্রাধিকার
ডাইনা-কিউ-এর বৈকল্পিক যেখানে আপডেটগুলি তাদের সম্ভাব্য প্রভাবের উপর ভিত্তি করে অগ্রাধিকার দেওয়া হয়, পরিকল্পনা পর্যায়ের গণনামূলক দক্ষতা অপ্টিমাইজ করে।
পরিকল্পনা প্রভাব
প্রকৃত ধাপ প্রতি পরিকল্পনা ধাপের সংখ্যা বাড়ার সাথে পর্যবেক্ষিত শিক্ষার ত্বরণ, হ্রাসমান রিটার্নের একটি বিন্দু পর্যন্ত।
অ্যালগরিদম অভিসৃতি
নির্দিষ্ট সঠিক মডেল এবং অসীম পরিদর্শনের শর্তে ডাইনা-কিউ-এর মান অনুমানগুলি সর্বোত্তম মানের দিকে অভিসৃত হওয়ার নিশ্চয়তা প্রদানকারী বৈশিষ্ট্য।
মডেল ত্রুটি
পরিবেশের প্রকৃত আচরণ এবং শেখা মডেলের পূর্বাভাসের মধ্যে পার্থক্য, যা নিয়ন্ত্রণ না করলে কর্মক্ষমতা হ্রাস করতে পারে।
গণনামূলক জটিলতা
ডাইনা-কিউ-এর গণনামূলক খরচ অভিজ্ঞতার স্মৃতির আকার এবং পুনরাবৃত্তি প্রতি পরিকল্পনা আপডেটের সংখ্যার উপর রৈখিকভাবে নির্ভরশীল।
মডেল সাধারণীকরণ
অবস্থা-ক্রিয়াগুলির জন্য মডেলের পূর্বাভাসগুলিকে এক্সট্রাপোলেট করার ক্ষমতা যা পর্যবেক্ষণ করা হয়নি, প্রায়শই স্নায়ু নেটওয়ার্ক বা অন্যান্য ফাংশন আনুমানিক দ্বারা অর্জন করা হয়।
স্টেট স্পেস স্যাম্পলিং
ডায়না-কিউ-এর পরিকল্পনা পর্যায়ে স্মৃতি থেকে সিমুলেটেড অভিজ্ঞতা নির্বাচনের কৌশল, যা ডায়না-কিউ-এর শেখার দক্ষতাকে প্রভাবিত করে।
পরিকল্পনা ফাংশন
অ্যালগরিদমিক উপাদান যা নতুন পরিবেশগত মিথস্ক্রিয়া ছাড়াই সংরক্ষিত অভিজ্ঞতার উপর পুনরাবৃত্তিমূলক আপডেট সম্পাদন করে মূল্য অনুমান পরিশোধন করে।
অভিযোজিত শেখার গতি
বাস্তব এবং সিমুলেটেড অভিজ্ঞতার ভিন্নতা বিবেচনা করে অভিসৃতি অপ্টিমাইজ করার জন্য ডায়না-কিউ-এ শেখার হার গতিশীলভাবে সামঞ্জস্য করার প্রক্রিয়া।