এআই গ্লসারি
কৃত্রিম বুদ্ধিমত্তার সম্পূর্ণ অভিধান
মডেল-ভিত্তিক অনুকরণ শিক্ষা
একটি পদ্ধতি যেখানে এজেন্ট প্রথমে পরিবেশের একটি গতিশীল মডেল শেখে, তারপর বিশেষজ্ঞদের প্রদর্শন থেকে অনুকরণিত আচরণ পরিকল্পনা করতে এবং সাধারণীকরণ করতে এই মডেল ব্যবহার করে।
গতিশীল মডেল
পরিবেশের অবস্থা রূপান্তর শেখার একটি গাণিতিক উপস্থাপনা, অর্থাৎ একটি অবস্থা s থেকে একটি ক্রিয়া a সম্পাদন করে একটি নতুন অবস্থা s'-এ পৌঁছানোর সম্ভাবনা P(s'|s, a)।
প্রতিকল্পনামূলক যুক্তি দ্বারা অনুমান
বিশেষজ্ঞের পুরস্কার ফাংশন অনুমানের একটি পদ্ধতি যা প্রদর্শিত ট্র্যাজেক্টরিগুলিকে কাছাকাছি প্রতিকল্পনামূলক ট্র্যাজেক্টরির সাথে তুলনা করে বিশেষজ্ঞের পছন্দ চিহ্নিত করে।
মডেল পরিকল্পনা
শেখা গতিশীল মডেল এবং পুরস্কার মডেল ব্যবহার করে বিভিন্ন ক্রিয়া ক্রম সিমুলেট করা এবং বাস্তব পরিবেশের সাথে সরাসরি মিথস্ক্রিয়া ছাড়াই সর্বোত্তম নীতি বেছে নেওয়ার প্রক্রিয়া।
মডেল সাধারণীকরণ
একটি মডেল-ভিত্তিক এজেন্টের প্রদর্শনে দেখা না যায় এমন নতুন পরিস্থিতিতে অনুকরণিত আচরণগুলি মানিয়ে নেওয়ার ক্ষমতা, পরিবেশের তার মডেলের মাধ্যমে প্রকল্পিত পরিস্থিতি সিমুলেট করে।
বিপরীত শক্তিবৃদ্ধি শিক্ষা (IRL)
একটি প্রক্রিয়া যা বিশেষজ্ঞের প্রদর্শন থেকে তার অন্তর্নিহিত পুরস্কার ফাংশন অনুমান করে, শক্তিবৃদ্ধি দ্বারা এজেন্ট প্রশিক্ষণের জন্য একটি ঘন সংকেত প্রদান করে।
সময়ের মাধ্যমে বিপরীত প্রচারণ (BPTT)
পুনরাবৃত্ত গতিশীল মডেল প্রশিক্ষণের জন্য ব্যবহৃত একটি অ্যালগরিদম, যেখানে ক্ষতির গ্রেডিয়েন্টগুলি সিমুলেটেড ট্র্যাজেক্টরির সময় ধাপ জুড়ে ত্রুটিগুলি বিপরীত প্রচার করে গণনা করা হয়।
ট্র্যাজেক্টরি অপ্টিমাইজেশন
পরিকল্পনা অ্যালগরিদমের একটি শ্রেণী যা পুরস্কার মডেল এবং গতিশীল মডেলের গ্রেডিয়েন্ট ব্যবহার করে একটি সম্পূর্ণ ট্র্যাজেক্টরি পুনরাবৃত্তভাবে উন্নত করে, মান-ভিত্তিক পদ্ধতির বিপরীতে।
বিহেভিওরাল ক্লোনিং (বিসি)
একটি সুপারভাইজড লার্নিং পদ্ধতি যা সরাসরি বিশেষজ্ঞের নীতি π(a|s) মডেল করে, প্রদত্ত অবস্থার জন্য এজেন্ট এবং বিশেষজ্ঞের কর্মের মধ্যে ত্রুটি কমানোর মাধ্যমে।
হাইব্রিড বিসি-মডেল-ভিত্তিক
একটি আর্কিটেকচার যা সরাসরি অনুকরণের জন্য একটি আচরণগত মডেল এবং পরিকল্পনার জন্য একটি পরিবেশ মডেলকে একত্রিত করে, যেখানে চূড়ান্ত এজেন্ট কর্ম উৎপাদনের জন্য উভয় অবদান একীভূত করা হয়।