এআই গ্লসারি
কৃত্রিম বুদ্ধিমত্তার সম্পূর্ণ অভিধান
আংশিক পর্যবেক্ষণ
যে পরিস্থিতিতে প্রদর্শনগুলি রাষ্ট্রের স্থানের একটি সীমিত অংশই কভার করে, ফলে এমন অঞ্চল তৈরি হয় যা অনাবিষ্কৃত থাকে এবং এজেন্টকে তা সাধারণীকরণ করতে হয়।
মজবুত নীতি
একটি শেখার নীতি যা আংশিক পর্যবেক্ষণ এবং প্রশিক্ষণের সময় দেখা না যাওয়া রাজ্যগুলির মুখেও গ্রহণযোগ্য কর্মক্ষমতা বজায় রাখার জন্য ডিজাইন করা হয়েছে।
নীতি অনুমান
আংশিক প্রদর্শনমূলক ট্র্যাজেক্টরির একটি সীমিত সেট থেকে বিশেষজ্ঞের অন্তর্নিহিত নীতি অনুমান করার প্রক্রিয়া।
নীতি সাধারণীকরণ
শেখা নীতির এমন ক্ষমতা যা প্রদর্শনের সময় দেখা না যাওয়া রাজ্যগুলিতে সঠিকভাবে কাজ করতে পারে, আংশিক পর্যবেক্ষণের জন্য অত্যন্ত গুরুত্বপূর্ণ।
রাষ্ট্র পুনর্গঠন
প্রদর্শনে উপলব্ধ আংশিক তথ্য থেকে অনুপস্থিত বা অদৃশ্য রাজ্যগুলি অনুমান করার কৌশল।
আবৃত রাষ্ট্রের স্থান
মোট রাষ্ট্রের স্থানের একটি উপসেট যা প্রদর্শনে কার্যকরভাবে অন্বেষণ করা হয়েছে, যা অনুকরণ দ্বারা সরাসরি শেখার সীমা নির্ধারণ করে।
প্রদর্শন দ্বারা শেখা
অনুকরণ দ্বারা শেখার প্রতিশব্দ, বিশেষভাবে প্রয়োগ করা হয় যখন প্রদর্শনগুলি অসম্পূর্ণ বা শোরগোলযুক্ত হয়।
বিতরণের বাইরে মূল্যায়ন
প্রশিক্ষণ ডেটায় অনুপস্থিত রাজ্যগুলিতে নীতির কর্মক্ষমতা মূল্যায়নের পদ্ধতি, এর মজবুততা পরিমাপ করার জন্য।
নীতিমালা ফাংশন
গাণিতিক ম্যাপিং π(a|s) যা s অবস্থায় a ক্রিয়া নির্বাচনের সম্ভাব্যতা নির্দিষ্ট করে, আংশিক প্রদর্শন থেকে শেখা।
অবস্থা বন্টন
সম্ভাব্যতা বন্টন যা পরিবেশে বিভিন্ন অবস্থার ঘটনার ফ্রিকোয়েন্সি বর্ণনা করে, প্রায়শই আংশিক প্রদর্শনে পক্ষপাতদুষ্ত।