🏠 হোম
বেঞ্চমার্ক
📊 সমস্ত বেঞ্চমার্ক 🦖 ডাইনোসর v1 🦖 ডাইনোসর v2 ✅ টু-ডু লিস্ট অ্যাপস 🎨 সৃজনশীল ফ্রি পেজ 🎯 FSACB - চূড়ান্ত শোকেস 🌍 অনুবাদ বেঞ্চমার্ক
মডেল
🏆 সেরা ১০টি মডেল 🆓 ফ্রি মডেল 📋 সমস্ত মডেল ⚙️ কিলো কোড
রিসোর্স
💬 প্রম্পট লাইব্রেরি 📖 এআই গ্লসারি 🔗 দরকারী লিঙ্ক

এআই গ্লসারি

কৃত্রিম বুদ্ধিমত্তার সম্পূর্ণ অভিধান

238
বিভাগ
3,112
উপ-বিভাগ
36,890
শব্দ
📖
শব্দ

নীতিমালা সিদ্ধান্ত

একটি কৌশল বা ম্যাপিং যা প্রতিটি সম্ভাব্য অবস্থায় নেওয়া পদক্ষেপ সংজ্ঞায়িত করে, যা শক্তিবৃদ্ধি শিক্ষণ প্রক্রিয়ায় এজেন্টের আচরণ উপস্থাপন করে।

📖
শব্দ

মাল্টি-আর্মড ব্যান্ডিট সমস্যা

একটি ক্রমিক অপ্টিমাইজেশন সমস্যা যেখানে একটি এজেন্টকে অজানা পুরস্কার সহ একাধিক বিকল্পের মধ্যে নির্বাচন করতে হয় সময়ের সাথে ক্রমবর্ধমান পুরস্কার সর্বাধিক করার জন্য।

📖
শব্দ

ক্রমবর্ধমান পুরস্কার

ভবিষ্যতের প্রত্যাশিত পুরস্কারের সমষ্টি যা এজেন্ট সর্বাধিক করতে চায়, প্রায়শই দূরবর্তী পুরস্কারগুলিকে কম গুরুত্ব দেওয়ার জন্য একটি ডিসকাউন্ট ফ্যাক্টর দিয়ে গণনা করা হয়।

📖
শব্দ

SARSA অ্যালগরিদম

একটি অন-পলিসি শক্তিবৃদ্ধি শিক্ষণ অ্যালগরিদম যা স্টেট-অ্যাকশন-রিওয়ার্ড-স্টেট-অ্যাকশন ক্রমের উপর ভিত্তি করে Q মান আপডেট করে, Q-লার্নিংয়ের বিপরীতে।

📖
শব্দ

ডিপ কিউ-নেটওয়ার্ক

একটি গভীর নিউরাল নেটওয়ার্ক আর্কিটেকচার যা জটিল স্টেট স্পেসে Q ফাংশন আনুমানিক করতে ব্যবহৃত হয়, গভীর শিক্ষণ এবং Q-লার্নিংকে একত্রিত করে।

📖
শব্দ

গভীর শক্তিবৃদ্ধি শিক্ষণ

একটি পদ্ধতি যা উচ্চ-মাত্রিক স্টেট বা অ্যাকশন স্পেস পরিচালনা করার জন্য শক্তিবৃদ্ধি শিক্ষণে গভীর নিউরাল নেটওয়ার্ককে একীভূত করে।

📖
শব্দ

এপসিলন-গ্রিডি নীতিমালা

অ্যাকশন নির্বাচনের একটি কৌশল যেখানে সম্ভাব্যতা ε সহ এজেন্ট এক্সপ্লোর করে (একটি এলোমেলো অ্যাকশন নির্বাচন করে) এবং সম্ভাব্যতা 1-ε সহ এটি এক্সপ্লয়িট করে (সর্বোত্তম পরিচিত অ্যাকশন নির্বাচন করে)।

📖
শব্দ

নীতিমালা অপ্টিমাইজেশন

শক্তিবৃদ্ধি শিক্ষণে পদ্ধতির একটি শ্রেণী যা সরাসরি নীতিমালা অপ্টিমাইজ করে একটি মান ফাংশনের মাধ্যমে না গিয়ে, প্রায়শই নীতিমালা গ্রেডিয়েন্ট কৌশল ব্যবহার করে।

📖
শব্দ

পলিসি গ্রেডিয়েন্ট অ্যালগরিদম

একটি অপ্টিমাইজেশন পদ্ধতি যা প্রত্যাশিত পুরস্কারের গ্রেডিয়েন্ট অনুসরণ করে সরাসরি পলিসির প্যারামিটারগুলি সামঞ্জস্য করে।

📖
শব্দ

মাল্টি-এজেন্ট রিইনফোর্সমেন্ট লার্নিং

রিইনফোর্সমেন্ট লার্নিং-এর একটি সম্প্রসারণ যেখানে একাধিক এজেন্ট একই পরিবেশে একসাথে শেখে, প্রায়শই প্রতিযোগিতা বা সহযোগিতার মাধ্যমে।

📖
শব্দ

এক্সপেরিয়েন্স রিপ্লে মেমোরি

একটি ডেটা স্ট্রাকচার যা ট্রানজিশন (স্টেট, অ্যাকশন, রিওয়ার্ড, পরবর্তী স্টেট) সংরক্ষণ করে ট্রেনিংয়ের সময় পুনঃনমুনাকরণের জন্য, ডেটা ব্যবহারের দক্ষতা উন্নত করে।

📖
শব্দ

অ্যাক্টর-ক্রিটিক অ্যালগরিদম

একটি আর্কিটেকচার যা একটি অ্যাক্টর (যা পলিসি অনুযায়ী অ্যাকশন নির্বাচন করে) এবং একটি ক্রিটিক (যা এই অ্যাকশনগুলির মূল্যায়ন করে) একত্রিত করে, আরও স্থিতিশীল এবং দক্ষ শেখার সুবিধা দেয়।

🔍

কোন ফলাফল পাওয়া যায়নি