Q-Learning বহুবস্তু - কৃত্রিম বুদ্ধিমত্তা শব্দাবলী

📖

শব্দ

কিউ-লার্নিং মাল্টি-অবজেক্টিভস

ঐতিহ্যগত কিউ-লার্নিং অ্যালগরিদমের সম্প্রসারণ যা স্কেলার মানের পরিবর্তে রিওয়ার্ড ভেক্টর পরিচালনা করে, একই সাথে একাধিক দ্বন্দ্বমূলক উদ্দেশ্য অপ্টিমাইজ করার অনুমতি দেয়।

📖

শব্দ

কিউ-ভ্যালু ভেক্টর

একটি বহুমাত্রিক ডেটা স্ট্রাকচার যেখানে প্রতিটি উপাদান একটি নির্দিষ্ট উদ্দেশ্যের জন্য কিউ-ভ্যালু উপস্থাপন করে, যা ক্লাসিক কিউ-লার্নিং-এর একক স্কেলার মান প্রতিস্থাপন করে।

📖

শব্দ

মাল্টি-অবজেক্টিভ রেজোলিউশন কৌশল যেখানে উদ্দেশ্যগুলি অগ্রাধিকার দ্বারা ক্রমানুসারে সাজানো হয় এবং ক্রমানুসারে অপ্টিমাইজ করা হয়, প্রতিটি উদ্দেশ্য শুধুমাত্র উচ্চতর অগ্রাধিকার উদ্দেশ্যগুলির সম্পূর্ণ অপ্টিমাইজেশনের পরে বিবেচনা করা হয়।

📖

শব্দ

মাল্টি-অবজেক্টিভ ট্রেড-অফ

কিছু উদ্দেশ্য উন্নত করার এবং অন্যগুলির সম্ভাব্য অবনতির মধ্যে প্রয়োজনীয় ভারসাম্য, যা দ্বন্দ্বমূলক উদ্দেশ্য সহ অপ্টিমাইজেশন সমস্যার অন্তর্নিহিত।

📖

শব্দ

ওয়েটেড কিউ-ভ্যালু

প্রতিটি উদ্দেশ্যের স্বতন্ত্র কিউ-ভ্যালুর লিনিয়ার কম্বিনেশন যা চূড়ান্ত সিদ্ধান্তে প্রতিটি উদ্দেশ্যের আপেক্ষিক গুরুত্ব প্রতিফলিত করতে নির্দিষ্ট ওজন ব্যবহার করে।

📖

শব্দ

প্যারেটো কিউ-লার্নিং অ্যালগরিদম

কিউ-লার্নিং-এর একটি বৈকল্পিক যা প্যারেটো-অপটিমাল পলিসিগুলির একটি সেট বজায় রাখে এবং একই সাথে উদ্দেশ্যগুলির মধ্যে সমস্ত সম্ভাব্য ট্রেড-অফের জন্য কিউ-ভ্যালু শেখে।

📖

শব্দ

মাল্টি-অবজেক্টিভ এক্সপ্লোরেশন

মাল্টি-অবজেক্টিভ পরিবেশের জন্য অভিযোজিত এক্সপ্লোরেশন কৌশল যা শেখার কার্যকারিতা বজায় রাখার পাশাপাশি বিভিন্ন উদ্দেশ্যের মধ্যে ট্রেড-অফ আবিষ্কারের ভারসাম্য বজায় রাখতে হবে।

📖

শব্দ

কিউ-লার্নিং-এ ন্যাশ ইকুইলিব্রিয়াম

গেম থিওরি থেকে ধারণা যা মাল্টি-অবজেক্টিভ কিউ-লার্নিং-এ প্রয়োগ করা হয় যেখানে কোনও পলিসি একতরফাভাবে একটি উদ্দেশ্যে তার পারফরম্যান্স উন্নত করতে পারে না অন্য উদ্দেশ্যে তার পারফরম্যান্সের অবনতি ছাড়াই।

📖

শব্দ

উদ্দেশ্য বিশ্লেষণ

একটি বহু-উদ্দেশ্য সমস্যাকে একাধিক একক-উদ্দেশ্য উপ-সমস্যায় রূপান্তর করার কৌশল, যা একই সাথে অপ্টিমাইজ করা হয় এবং প্যারেটো ফ্রন্টে বৈচিত্র্যময় সমাধান খুঁজে পেতে সহায়তা করে।

📖

শব্দ

পুরস্কার ভেক্টর

একটি বহুমাত্রিক পুরস্কার ভেক্টর যেখানে প্রতিটি উপাদান একটি নির্দিষ্ট উদ্দেশ্যের সাথে সম্পর্কিত পুরস্কারের সাথে মিলে যায়, যা ঐতিহ্যগত স্কেলার পুরস্কার সংকেত প্রতিস্থাপন করে।

📖

শব্দ

নীতি স্থান অভিযোজন

নীতির স্থান গতিশীলভাবে অভিযোজনের প্রক্রিয়া, যা শিক্ষার সমস্যার বহু-উদ্দেশ্য প্রকৃতি দ্বারা প্রবর্তিত অতিরিক্ত জটিলতা কার্যকরভাবে পরিচালনা করার জন্য।

এআই গ্লসারি

কিউ-লার্নিং মাল্টি-অবজেক্টিভস

কিউ-ভ্যালু ভেক্টর

লেক্সিকোগ্রাফিক অ্যাপ্রোচ

মাল্টি-অবজেক্টিভ ট্রেড-অফ

ওয়েটেড কিউ-ভ্যালু

প্যারেটো কিউ-লার্নিং অ্যালগরিদম

মাল্টি-অবজেক্টিভ এক্সপ্লোরেশন

কিউ-লার্নিং-এ ন্যাশ ইকুইলিব্রিয়াম

উদ্দেশ্য বিশ্লেষণ

পুরস্কার ভেক্টর

নীতি স্থান অভিযোজন

কোন ফলাফল পাওয়া যায়নি