এআই গ্লসারি
কৃত্রিম বুদ্ধিমত্তার সম্পূর্ণ অভিধান
অভিনেতা-সমালোচক
একটি শক্তিশালী শেখার আর্কিটেকচার যা একটি স্টোকাস্টিক নীতি শেখার জন্য একটি অভিনেতা নেটওয়ার্ক এবং নীতি গ্রেডিয়েন্টের ভ্যারিয়েন্স কমানোর জন্য একটি মান ফাংশন অনুমানকারী সমালোচক নেটওয়ার্ককে একত্রিত করে।
মান ফাংশন
একটি গাণিতিক ফাংশন যা একটি অবস্থা বা অবস্থা-ক্রিয়া জোড়া থেকে প্রত্যাশিত ক্রমবর্ধমান রিটার্ন অনুমান করে, অভিনেতা-সমালোচক আর্কিটেকচারে সমালোচকের জন্য শেখার সংকেত হিসেবে কাজ করে।
অ্যাসিঙ্ক্রোনাস অ্যাডভান্টেজ অভিনেতা-সমালোচক
একটি বিতরণকৃত আর্কিটেকচার যেখানে একাধিক এজেন্ট স্বাধীন পরিবেশে সমান্তরালভাবে প্রশিক্ষণ নেয়, শেখার গতি বাড়ানোর জন্য পর্যায়ক্রমে তাদের গ্রেডিয়েন্ট শেয়ার করে।
ডিপ ডিটারমিনিস্টিক পলিসি গ্রেডিয়েন্ট
অবিচ্ছিন্ন অ্যাকশন স্পেসের জন্য একটি অভিনেতা-সমালোচক অ্যালগরিদম যা স্থিতিশীল অফ-পলিসি শেখার জন্য ডিপ নিউরাল নেটওয়ার্ক, ডিটারমিনিস্টিক পলিসি এবং রিপ্লে বাফার ব্যবহার করে।
টুইন ডিলেড ডিপ ডিটারমিনিস্টিক পলিসি গ্রেডিয়েন্ট
DDPG-এর উন্নত সংস্করণ যা মানের অতিমূল্যায়ন কমানোর জন্য দুটি যমজ সমালোচক ব্যবহার করে এবং আরও ভাল স্থিতিশীলতার জন্য অভিনেতা এবং টার্গেটের বিলম্বিত আপডেট ব্যবহার করে।
সফট অভিনেতা-সমালোচক
একটি অভিনেতা-সমালোচক অ্যালগরিদম যা রিটার্ন এবং এনট্রপি একত্রিত করে একটি এনট্রপি রিওয়ার্ড ম্যাক্সিমাইজ করে, এক্সপ্লোরেশন উৎসাহিত করার জন্য স্থিতিশীল এবং দক্ষ অফ-পলিসি আপডেট ব্যবহার করে।
অ্যাডভান্টেজ অভিনেতা-সমালোচক
A3C-এর একটি সিনক্রোনাস বৈকল্পিক যা নীতি গ্রেডিয়েন্টের ভ্যারিয়েন্স কমানোর জন্য অ্যাডভান্টেজ অনুমান ব্যবহার করে, এবং GPU-তে আরও ভাল স্থিতিশীলতার জন্য ব্যাচ আপডেট সহ।
সমালোচক নেটওয়ার্ক
একটি নিউরাল নেটওয়ার্ক যা V(s) বা Q(s,a) মান ফাংশন অনুমান করে অভিনেতাকে TD শেখার সংকেত প্রদান করে, অপ্টিমাইজেশন গ্রেডিয়েন্ট হিসেবে প্রেডিকশন ত্রুটি ব্যবহার করে।