এআই গ্লসারি
কৃত্রিম বুদ্ধিমত্তার সম্পূর্ণ অভিধান
কিউ-লার্নিং মাল্টি-অবজেক্টিভস
ঐতিহ্যগত কিউ-লার্নিং অ্যালগরিদমের সম্প্রসারণ যা স্কেলার মানের পরিবর্তে রিওয়ার্ড ভেক্টর পরিচালনা করে, একই সাথে একাধিক দ্বন্দ্বমূলক উদ্দেশ্য অপ্টিমাইজ করার অনুমতি দেয়।
কিউ-ভ্যালু ভেক্টর
একটি বহুমাত্রিক ডেটা স্ট্রাকচার যেখানে প্রতিটি উপাদান একটি নির্দিষ্ট উদ্দেশ্যের জন্য কিউ-ভ্যালু উপস্থাপন করে, যা ক্লাসিক কিউ-লার্নিং-এর একক স্কেলার মান প্রতিস্থাপন করে।
লেক্সিকোগ্রাফিক অ্যাপ্রোচ
মাল্টি-অবজেক্টিভ রেজোলিউশন কৌশল যেখানে উদ্দেশ্যগুলি অগ্রাধিকার দ্বারা ক্রমানুসারে সাজানো হয় এবং ক্রমানুসারে অপ্টিমাইজ করা হয়, প্রতিটি উদ্দেশ্য শুধুমাত্র উচ্চতর অগ্রাধিকার উদ্দেশ্যগুলির সম্পূর্ণ অপ্টিমাইজেশনের পরে বিবেচনা করা হয়।
মাল্টি-অবজেক্টিভ ট্রেড-অফ
কিছু উদ্দেশ্য উন্নত করার এবং অন্যগুলির সম্ভাব্য অবনতির মধ্যে প্রয়োজনীয় ভারসাম্য, যা দ্বন্দ্বমূলক উদ্দেশ্য সহ অপ্টিমাইজেশন সমস্যার অন্তর্নিহিত।
ওয়েটেড কিউ-ভ্যালু
প্রতিটি উদ্দেশ্যের স্বতন্ত্র কিউ-ভ্যালুর লিনিয়ার কম্বিনেশন যা চূড়ান্ত সিদ্ধান্তে প্রতিটি উদ্দেশ্যের আপেক্ষিক গুরুত্ব প্রতিফলিত করতে নির্দিষ্ট ওজন ব্যবহার করে।
প্যারেটো কিউ-লার্নিং অ্যালগরিদম
কিউ-লার্নিং-এর একটি বৈকল্পিক যা প্যারেটো-অপটিমাল পলিসিগুলির একটি সেট বজায় রাখে এবং একই সাথে উদ্দেশ্যগুলির মধ্যে সমস্ত সম্ভাব্য ট্রেড-অফের জন্য কিউ-ভ্যালু শেখে।
মাল্টি-অবজেক্টিভ এক্সপ্লোরেশন
মাল্টি-অবজেক্টিভ পরিবেশের জন্য অভিযোজিত এক্সপ্লোরেশন কৌশল যা শেখার কার্যকারিতা বজায় রাখার পাশাপাশি বিভিন্ন উদ্দেশ্যের মধ্যে ট্রেড-অফ আবিষ্কারের ভারসাম্য বজায় রাখতে হবে।
কিউ-লার্নিং-এ ন্যাশ ইকুইলিব্রিয়াম
গেম থিওরি থেকে ধারণা যা মাল্টি-অবজেক্টিভ কিউ-লার্নিং-এ প্রয়োগ করা হয় যেখানে কোনও পলিসি একতরফাভাবে একটি উদ্দেশ্যে তার পারফরম্যান্স উন্নত করতে পারে না অন্য উদ্দেশ্যে তার পারফরম্যান্সের অবনতি ছাড়াই।
উদ্দেশ্য বিশ্লেষণ
একটি বহু-উদ্দেশ্য সমস্যাকে একাধিক একক-উদ্দেশ্য উপ-সমস্যায় রূপান্তর করার কৌশল, যা একই সাথে অপ্টিমাইজ করা হয় এবং প্যারেটো ফ্রন্টে বৈচিত্র্যময় সমাধান খুঁজে পেতে সহায়তা করে।
পুরস্কার ভেক্টর
একটি বহুমাত্রিক পুরস্কার ভেক্টর যেখানে প্রতিটি উপাদান একটি নির্দিষ্ট উদ্দেশ্যের সাথে সম্পর্কিত পুরস্কারের সাথে মিলে যায়, যা ঐতিহ্যগত স্কেলার পুরস্কার সংকেত প্রতিস্থাপন করে।
নীতি স্থান অভিযোজন
নীতির স্থান গতিশীলভাবে অভিযোজনের প্রক্রিয়া, যা শিক্ষার সমস্যার বহু-উদ্দেশ্য প্রকৃতি দ্বারা প্রবর্তিত অতিরিক্ত জটিলতা কার্যকরভাবে পরিচালনা করার জন্য।