আংশিক পর্যবেক্ষণ সহ অনুকরণ - কৃত্রিম বুদ্ধিমত্তা শব্দাবলী

📖

শব্দ

আংশিক পর্যবেক্ষণ

যে পরিস্থিতিতে প্রদর্শনগুলি রাষ্ট্রের স্থানের একটি সীমিত অংশই কভার করে, ফলে এমন অঞ্চল তৈরি হয় যা অনাবিষ্কৃত থাকে এবং এজেন্টকে তা সাধারণীকরণ করতে হয়।

📖

শব্দ

মজবুত নীতি

একটি শেখার নীতি যা আংশিক পর্যবেক্ষণ এবং প্রশিক্ষণের সময় দেখা না যাওয়া রাজ্যগুলির মুখেও গ্রহণযোগ্য কর্মক্ষমতা বজায় রাখার জন্য ডিজাইন করা হয়েছে।

📖

শব্দ

নীতি অনুমান

আংশিক প্রদর্শনমূলক ট্র্যাজেক্টরির একটি সীমিত সেট থেকে বিশেষজ্ঞের অন্তর্নিহিত নীতি অনুমান করার প্রক্রিয়া।

📖

শব্দ

নীতি সাধারণীকরণ

শেখা নীতির এমন ক্ষমতা যা প্রদর্শনের সময় দেখা না যাওয়া রাজ্যগুলিতে সঠিকভাবে কাজ করতে পারে, আংশিক পর্যবেক্ষণের জন্য অত্যন্ত গুরুত্বপূর্ণ।

📖

শব্দ

রাষ্ট্র পুনর্গঠন

প্রদর্শনে উপলব্ধ আংশিক তথ্য থেকে অনুপস্থিত বা অদৃশ্য রাজ্যগুলি অনুমান করার কৌশল।

📖

শব্দ

আবৃত রাষ্ট্রের স্থান

মোট রাষ্ট্রের স্থানের একটি উপসেট যা প্রদর্শনে কার্যকরভাবে অন্বেষণ করা হয়েছে, যা অনুকরণ দ্বারা সরাসরি শেখার সীমা নির্ধারণ করে।

📖

শব্দ

প্রদর্শন দ্বারা শেখা

অনুকরণ দ্বারা শেখার প্রতিশব্দ, বিশেষভাবে প্রয়োগ করা হয় যখন প্রদর্শনগুলি অসম্পূর্ণ বা শোরগোলযুক্ত হয়।

📖

শব্দ

বিতরণের বাইরে মূল্যায়ন

প্রশিক্ষণ ডেটায় অনুপস্থিত রাজ্যগুলিতে নীতির কর্মক্ষমতা মূল্যায়নের পদ্ধতি, এর মজবুততা পরিমাপ করার জন্য।

📖

শব্দ

নীতিমালা ফাংশন

গাণিতিক ম্যাপিং π(a|s) যা s অবস্থায় a ক্রিয়া নির্বাচনের সম্ভাব্যতা নির্দিষ্ট করে, আংশিক প্রদর্শন থেকে শেখা।

📖

শব্দ

অবস্থা বন্টন

সম্ভাব্যতা বন্টন যা পরিবেশে বিভিন্ন অবস্থার ঘটনার ফ্রিকোয়েন্সি বর্ণনা করে, প্রায়শই আংশিক প্রদর্শনে পক্ষপাতদুষ্ত।

এআই গ্লসারি