এআই গ্লসারি
কৃত্রিম বুদ্ধিমত্তার সম্পূর্ণ অভিধান
মার্কভ সিদ্ধান্ত প্রক্রিয়া (MDP)
একটি গাণিতিক কাঠামো যা এমন পরিবেশে সিদ্ধান্ত গ্রহণের মডেলিং করে যেখানে ফলাফল আংশিকভাবে এলোমেলো এবং একজন সিদ্ধান্ত গ্রহণকারীর নিয়ন্ত্রণাধীন। একটি MDP-কে সংজ্ঞায়িত করা হয় অবস্থা, ক্রিয়া, রূপান্তর ফাংশন এবং পুরস্কার ফাংশন দ্বারা।
আংশিক পর্যবেক্ষণযোগ্য মার্কভ সিদ্ধান্ত প্রক্রিয়া (POMDP)
MDP-এর একটি সাধারণীকরণ যেখানে এজেন্ট সিস্টেমের সঠিক অবস্থা জানেন না, তবে সম্ভাব্য পর্যবেক্ষণ পান। POMDP অনিশ্চিত পরিবেশের মডেলিং করে যেখানে এজেন্টকে সম্ভাব্য অবস্থার উপর বিশ্বাস বজায় রাখতে হয়।
নীতি (Policy)
একটি কৌশল যা প্রতিটি সম্ভাব্য অবস্থায় কোন ক্রিয়া গ্রহণ করতে হবে তা নির্ধারণ করে। একটি সর্বোত্তম নীতি পরিকল্পনার দিগন্তে প্রত্যাশিত ক্রমবর্ধমান পুরস্কারকে সর্বাধিক করে।
ছাড়ের ফ্যাক্টর (Discount Factor)
একটি প্যারামিটার (সাধারণত γ দ্বারা চিহ্নিত) যা তাৎক্ষণিক পুরস্কারের তুলনায় ভবিষ্যত পুরস্কারের গুরুত্বকে ওজন করে। ১-এর কাছাকাছি মান দীর্ঘমেয়াদী পরিকল্পনাকে উৎসাহিত করে।
পর্যবেক্ষণ মডেল (Observation Model)
POMDP-তে একটি সম্ভাব্য ফাংশন যা সিস্টেমের প্রকৃত অবস্থার ভিত্তিতে একটি নির্দিষ্ট তথ্য পর্যবেক্ষণের সম্ভাবনা বর্ণনা করে। এটি লুকানো অবস্থার সাথে পর্যবেক্ষিত তথ্যের সম্পর্ক স্থাপন করে।
মান পুনরাবৃত্তি (Value Iteration)
MDP-এর সমাধানের জন্য একটি অ্যালগরিদম যা পুনরাবৃত্তিমূলকভাবে মান ফাংশনকে আপডেট করে যতক্ষণ না এটি সর্বোত্তম মান ফাংশনে রূপান্তরিত হয়। এটি সর্বোত্তম নীতি খুঁজে পাওয়ার নিশ্চয়তা দেয়।
নীতি পুনরাবৃত্তি (Policy Iteration)
একটি অ্যালগরিদম যা প্রদত্ত নীতির মূল্যায়ন এবং সেই নীতির উন্নতির মধ্যে পর্যায়ক্রমে পরিবর্তন করে। এটি প্রায়শই ছোট ক্রিয়া স্থানযুক্ত MDP-এর জন্য মান পুনরাবৃত্তির চেয়ে দ্রুত অভিসৃত হয়।
স্যাডল পয়েন্ট (Saddle Point)
খেলার তত্ত্ব এবং শক্তিশালী অপ্টিমাইজেশনে একটি ধারণা যা একটি ভারসাম্য সমাধানকে প্রতিনিধিত্ব করে যেখানে কোনো কৌশল একতরফাভাবে উন্নত করা যায় না। এটি প্রতিপক্ষের বিরুদ্ধে পরিকল্পনায় ব্যবহৃত হয়।
অনলাইন পরিকল্পনা (Online Planning)
একটি পদ্ধতি যেখানে সিদ্ধান্তগুলি আগে থেকে না করে কার্যকর করার সময় গণনা করা হয়। এটি গতিশীল পরিবেশের জন্য উপযুক্ত যেখানে ভবিষ্যতের অবস্থা সঠিকভাবে পূর্বাভাস দেওয়া কঠিন।
নীতি বৃক্ষ (Policy Tree)
POMDP-তে একটি নীতির প্রতিনিধিত্ব যা সিদ্ধান্ত বৃক্ষ হিসেবে, যেখানে অভ্যন্তরীণ নোডগুলি পর্যবেক্ষণের পরীক্ষা এবং পাতাগুলি কার্যকর করার জন্য ক্রিয়া। এটি সিদ্ধান্তের শর্তাধীন প্রকৃতি ধারণ করে।
প্রক্ষেপণ নমুনা (Trajectory Sampling)
POMDP সমাধানের জন্য একটি আনুমানিক কৌশল যা সম্পূর্ণ স্থানের পরিবর্তে সম্ভাব্য প্রক্ষেপণের একটি উপসেট অন্বেষণ করে। এটি বড় আকারের সমস্যাগুলি সমাধান করতে সাহায্য করে।
আনুমানিক গতিশীল প্রোগ্রামিং (Approximate Dynamic Programming - ADP)
মূল্য ফাংশনের আনুমানিক ব্যবহার করে বৃহৎ মাত্রার সর্বোত্তম নিয়ন্ত্রণ সমস্যা সমাধানের পদ্ধতিগুলির একটি সেট। এটি অবিচ্ছিন্ন অবস্থার স্থানের MDP-এর জন্য অপরিহার্য।