Deep Reinforcement Learning - কৃত্রিম বুদ্ধিমত্তা শব্দাবলী

📂

উপ-বিভাগ

Deep Q-Networks (DQN)

কিউ-লার্নিং এবং গভীর নিউরাল নেটওয়ার্কের সংমিশ্রণে একটি অগ্রণী অ্যালগরিদম যা জটিল অবস্থার স্থানে কিউ-মান ফাংশন আনুমানিক করতে ব্যবহৃত হয়।

18 শব্দ

📂

উপ-বিভাগ

Policy Gradient Methods

Approches d'apprentissage par renforcement qui optimisent directement la politique en suivant le gradient des rewards attendus.

18 শব্দ

📂

উপ-বিভাগ

অ্যাক্টর-ক্রিটিক পদ্ধতি

একটি হাইব্রিড আর্কিটেকচর যা একটি অ্যাক্টর নীতি শেখে এবং একটি ক্রিটিক রাজ্য বা কর্মের মূল্য মূল্যায়ন করে।

8 শব্দ

📂

উপ-বিভাগ

Deep Deterministic Policy Gradient (DDPG)

অফ-পলিসি অ্যাক্টর-ক্রিটিক অ্যালগরিদম যা গভীর নিউরাল নেটওয়ার্ক ব্যবহার করে ক্রমাগত অ্যাকশন স্পেস সহ পরিবেশের জন্য।

9 শব্দ

📂

উপ-বিভাগ

Proximal Policy Optimization (PPO)

নীতির অপ্টিমাইজেশন পদ্ধতি যা শেখার স্থিতিশীলতা নিশ্চিত করতে আপডেটগুলিকে একটি বিশ্বস্ত অঞ্চলে রাখে।

11 শব্দ

📂

উপ-বিভাগ

ট্রাস্ট রিজিওন পলিসি অপ্টিমাইজেশন (TRPO)

একটি সীমাবদ্ধ অপ্টিমাইজেশন অ্যালগরিদম যা নিশ্চিত করে যে নতুন নীতিগুলি পুরানো নীতিগুলি থেকে খুব বেশি দূরে সরে যায় না।

8 শব্দ

📂

উপ-বিভাগ

মাল্টি-এজেন্ট ডিপ আরএল

ডিপ আরএলের একটি সম্প্রসারণ যেখানে একাধিক এজেন্ট একই পরিবেশে সহযোগিতা বা প্রতিযোগিতার মাধ্যমে একসাথে শেখে।

20 শব্দ

📂

উপ-বিভাগ

হায়ারার্কিক্যাল রিইনফোর্সমেন্ট লার্নিং

বিশেষায়িত সাব-পলিসিগুলো নিয়ন্ত্রণকারী মেটা-পলিসি সহ স্তরবিন্যাসে শেখার কাঠামোগত পদ্ধতি।

20 শব্দ

📂

উপ-বিভাগ

মডেল-ভিত্তিক গভীর RL

একটি কৌশল যেখানে এজেন্ট পরিবেশের একটি মডেল শেখে যাতে আরও দক্ষতার সাথে পরিকল্পনা এবং সিদ্ধান্ত নিতে পারে।

19 শব্দ

📂

উপ-বিভাগ

ডিস্ট্রিবিউশনাল আরএল

একটি প্যারাডাইম যা রিটার্নের সম্পূর্ণ বন্টন শেখে, কেবল তাদের প্রত্যাশা নয়, আরও ভালো রোবাস্টনেসের জন্য।

18 শব্দ

📂

উপ-বিভাগ

Curiosity-Driven RL

একটি পদ্ধতি যেখানে এজেন্ট তার কৌতূহলের উপর ভিত্তি করে অভ্যন্তরীণ পুরস্কার পায়, পরিবেশকে কার্যকরভাবে অন্বেষণ করার জন্য।

16 শব্দ

📂

উপ-বিভাগ

RL-এ মেটা-লার্নিং

একটি কৌশল যা এজেন্টদের অল্প অভিজ্ঞতার মাধ্যমে নতুন কাজ দ্রুত শিখতে শেখায়।

18 শব্দ

এআই গ্লসারি

Deep Q-Networks (DQN)

Policy Gradient Methods

অ্যাক্টর-ক্রিটিক পদ্ধতি

Deep Deterministic Policy Gradient (DDPG)

Proximal Policy Optimization (PPO)

ট্রাস্ট রিজিওন পলিসি অপ্টিমাইজেশন (TRPO)

মাল্টি-এজেন্ট ডিপ আরএল

হায়ারার্কিক্যাল রিইনফোর্সমেন্ট লার্নিং

মডেল-ভিত্তিক গভীর RL

ডিস্ট্রিবিউশনাল আরএল

Curiosity-Driven RL

RL-এ মেটা-লার্নিং

কোন ফলাফল পাওয়া যায়নি