এআই গ্লসারি
কৃত্রিম বুদ্ধিমত্তার সম্পূর্ণ অভিধান
DAgger (ডেটাসেট অ্যাগ্রিগেশন)
ইমিটেশন লার্নিং অ্যালগরিদম যা বর্তমান পলিসি দ্বারা পরিদর্শনকৃত স্টেটগুলিতে একজন বিশেষজ্ঞকে জিজ্ঞাসা করে পুনরাবৃত্তিমূলকভাবে ডেটা সংগ্রহ করে। এই পদ্ধতি ট্রেনিং ডিস্ট্রিবিউশন এবং ডেপ্লয়মেন্ট ডিস্ট্রিবিউশনের মধ্যে ব্যবধান হ্রাস করে।
ডেটা অ্যাগ্রিগেশন
বিভিন্ন উৎস বা লার্নিং ইটারেশন থেকে একাধিক ডেটাসেট সংগ্রহ এবং সংযুক্ত করার প্রক্রিয়া। DAgger-এ, এটি শেখা পলিসির রোবাস্টনেস ধাপে ধাপে উন্নত করতে সক্ষম করে।
পুনরাবৃত্তিমূলক সংগ্রহ
ডেটা সংগ্রহ পদ্ধতি যা একাধিক ধারাবাহিক চক্রে সম্পাদিত হয়, প্রতিটি চক্র পূর্ববর্তী চক্রের তথ্য ব্যবহার করে। এই পদ্ধতি ক্রমাগত পলিসি পরিমার্জন এবং নতুন স্টেট এক্সপ্লোর করতে সক্ষম করে।
বিহেভিওরাল পলিসি
কৌশল বা কর্মের উপর সম্ভাব্যতা বন্টন যা এজেন্ট DAgger-এ ডেটা সংগ্রহ করার সময় অনুসরণ করে। এটি সর্বোত্তম পলিসির কাছাকাছি আসার জন্য ইটারেশন জুড়ে বিকশিত হয়।
স্টেট ডিস্ট্রিবিউশন
সম্ভাব্য স্টেটগুলির সেট যা এজেন্ট তার এক্সিকিউশনের সময় পরিদর্শন করতে পারে। DAgger এই ডিস্ট্রিবিউশনকে বাস্তব ডেপ্লয়মেন্টে সম্মুখীন ডিস্ট্রিবিউশনের সাথে সামঞ্জস্য করতে চায়।
ডিস্ট্রিবিউশন বায়াস
ট্রেনিং ডেটার ডিস্ট্রিবিউশন এবং প্রোডাকশন ডেপ্লয়মেন্টে সম্মুখীন ডিস্ট্রিবিউশনের মধ্যে পার্থক্য। DAgger বর্তমান পলিসি দ্বারা প্রকৃতপক্ষে পরিদর্শনকৃত স্টেটগুলিতে ডেটা সংগ্রহ করে এই বায়াস হ্রাস করে।
এরর কারেকশন
প্রক্রিয়া যার মাধ্যমে একজন বিশেষজ্ঞ সঠিক কর্ম সরবরাহ করে যখন এজেন্টের বর্তমান পলিসি ভুল করে। এই সংশোধনগুলি পলিসি উন্নত করার জন্য নতুন ট্রেনিং ডেটা হিসেবে কাজ করে।
এক্সপার্ট কুয়েরি
এজেন্ট দ্বারা পরিদর্শনকৃত নির্দিষ্ট স্টেটগুলির জন্য একজন মানব বিশেষজ্ঞ বা সিস্টেমের সর্বোত্তম কর্ম আহ্বানের মেকানিজম। উচ্চ-মানের ট্রেনিং ডেটা তৈরি করার জন্য এই কুয়েরিগুলি অপরিহার্য।
পরিদর্শন করা অবস্থা
এজেন্ট তার বর্তমান নীতি কার্যকর করার সময় পরিবেশের যে নির্দিষ্ট কনফিগারেশন বা পরিস্থিতিতে পৌঁছায়। DAgger-এ বিশেষজ্ঞের জন্য এই অবস্থাগুলি প্রশ্নবিন্দু হয়ে ওঠে।
বর্তমান নীতি
এজেন্টের সিদ্ধান্ত গ্রহণের কৌশলের বর্তমান সংস্করণ যা DAgger অ্যালগরিদমের প্রতিটি পুনরাবৃত্তিতে বিকশিত হয়। এটি পরিবেশ অন্বেষণ এবং বিশেষজ্ঞ সংশোধন প্রয়োজন এমন অবস্থা চিহ্নিত করতে ব্যবহৃত হয়।
অভিযোজিত সমষ্টি
DAgger-এর একটি বৈকল্পিক যা গতিশীলভাবে বিশেষজ্ঞ কর্ম বনাম বর্তমান নীতির কর্মের অনুপাত সামঞ্জস্য করে। এই অভিযোজন শেখার সময় অন্বেষণ ও ব্যবহারের মধ্যে ভারসাম্য বজায় রাখতে সক্ষম করে।
ফিডব্যাক লুপ
একটি অবিচ্ছিন্ন চক্র যেখানে বর্তমান নীতির কার্যকারিতা নতুন অবস্থা তৈরি করে, যা আবার বিশেষজ্ঞ সংশোধন প্রয়োজন। এই পুনরাবৃত্তিমূলক লুপ DAgger-এ উন্নতির মৌলিক প্রক্রিয়া।
অনলাইন সংশোধন
বিশেষজ্ঞ হস্তক্ষেপের প্রক্রিয়া যা এজেন্টের নীতি বাস্তব সময়ে কার্যকর করার সময় ঘটে। এই তাৎক্ষণিক সংশোধন ট্র্যাজেক্টরিতে ত্রুটি বিস্তার এড়াতে সক্ষম করে।
ট্র্যাজেক্টরি বন্টন
এজেন্টের বর্তমান নীতি অনুসরণ করে উৎপন্ন অবস্থা ও কর্মের ক্রমের সমষ্টি। DAgger এই বন্টনকে সর্বোত্তম বিশেষজ্ঞ নীতি দ্বারা উৎপন্ন বন্টনের সাথে সারিবদ্ধ করার লক্ষ্য রাখে।
লক্ষ্য নীতি
এজেন্ট যে সর্বোত্তম নীতি অনুকরণ করতে চায়, যা সাধারণত বিশেষজ্ঞের প্রদর্শন দ্বারা প্রতিনিধিত্ব করা হয়। DAgger-এর লক্ষ্য হল শেখা নীতিকে এই লক্ষ্য নীতির দিকে অভিসৃত করা।
ক্রমবর্ধমান সমষ্টি
তথ্য সঞ্চয়ের কৌশল যেখানে প্রতিটি নতুন পুনরাবৃত্তি বিদ্যমান ডেটায় পরিপূরক তথ্য যোগ করে। এই পদ্ধতি প্রাসঙ্গিক অবস্থা স্থানের ক্রমবর্ধমান কভারেজ নিশ্চিত করে।
কমপ্যাক্টনেস ত্রুটি
প্রতিনিধিত্ব সীমাবদ্ধতার কারণে শেখানো নীতি ও বিশেষজ্ঞ নীতির মধ্যে পারফরম্যান্সের পার্থক্য। DAgger বাস্তব অবস্থার বন্টনে ডেটা সংগ্রহ করে এই ত্রুটি হ্রাস করে।