পর্যবেক্ষণের মাধ্যমে অনুকরণ - কৃত্রিম বুদ্ধিমত্তা শব্দাবলী

📖

শব্দ

ইনভার্স রিইনফোর্সমেন্ট লার্নিং

একটি পদ্ধতি যা বিশেষজ্ঞের সর্বোত্তম ট্র্যাজেক্টোরি থেকে পুরস্কার ফাংশন অনুমান করে, যার ফলে এজেন্ট একটি সর্বোত্তম নীতি শিখতে পারে।

📖

শব্দ

শুধুমাত্র স্টেট ভিত্তিক ইমিটেশন লার্নিং

একটি শেখার প্যারাডাইম যেখানে এজেন্টের শুধুমাত্র বিশেষজ্ঞের পরিদর্শন করা স্টেটগুলিতে অ্যাক্সেস থাকে কিন্তু গৃহীত কর্ম সম্পর্কে কোন জ্ঞান নেই, আচরণ অনুমান করার জন্য নির্দিষ্ট পদ্ধতির প্রয়োজন।

📖

শব্দ

ট্র্যাজেক্টরি ম্যাচিং

একটি পদ্ধতি যা এজেন্ট এবং বিশেষজ্ঞ দ্বারা উত্পন্ন ট্র্যাজেক্টরি বন্টনের মধ্যে বিভেদ কমায়, প্রায়শই কর্ম ছাড়া শেখার ক্ষেত্রে ব্যবহৃত হয়।

📖

শব্দ

গেইল

ইমিটেশন লার্নিং এবং জেনারেটিভ অ্যাডভারসারিয়াল নেটওয়ার্কগুলিকে একত্রিত করে এমন একটি ফ্রেমওয়ার্ক, যেখানে একটি ডিসক্রিমিনেটর বিশেষজ্ঞ এবং এজেন্টের ট্র্যাজেক্টরিগুলিকে আলাদা করে।

📖

শব্দ

ডেটাসেট অ্যাগ্রিগেশন

একটি পুনরাবৃত্তিমূলক অ্যালগরিদম যা বর্তমান এজেন্টের ত্রুটির উপর ভিত্তি করে নতুন বিশেষজ্ঞ ডেটা সংগ্রহ করে, ধীরে ধীরে একটি আরও শক্তিশালী ডেটাসেট তৈরি করে।

📖

শব্দ

ফরওয়ার্ড-ফরওয়ার্ড অ্যালগরিদম

একটি অননুমোদিত শেখার পদ্ধতি যা বর্তমান স্টেট থেকে ভবিষ্যতের স্টেটগুলি ভবিষ্যদ্বাণী করে কর্ম ডেটার প্রয়োজন ছাড়াই, পর্যবেক্ষণ ভিত্তিক অনুকরণে ব্যবহৃত হয়।

📖

শব্দ

পর্যবেক্ষণ-ভিত্তিক শেখা

একটি শেখার প্রক্রিয়া যেখানে এজেন্ট শুধুমাত্র পরিবেশগত স্টেট এবং ফলাফলগুলি পর্যবেক্ষণ করে দক্ষতা অর্জন করে, বিশেষজ্ঞের কর্মে সরাসরি অ্যাক্সেস ছাড়াই।

📖

শব্দ

স্টেট ডিস্ট্রিবিউশন ম্যাচিং

একটি কৌশল যা এজেন্ট দ্বারা পরিদর্শন করা স্টেটগুলির বন্টনকে বিশেষজ্ঞের সাথে সারিবদ্ধ করার লক্ষ্য করে, যখন কর্মগুলি পর্যবেক্ষণযোগ্য না হয় তখন ব্যবহৃত হয়।

📖

শব্দ

নো-অ্যাকশন ইমিটেশন

ইমিটেশন লার্নিং-এর একটি ফর্ম যেখানে এজেন্টকে বিশেষজ্ঞের আচরণ পুনরুত্পাদন করতে শিখতে হয় কোনো কাজের তথ্য ছাড়াই।

📖

শব্দ

প্যাসিভ লার্নিং

শেখার একটি মোড যেখানে এজেন্ট পরিবেশের সাথে সক্রিয় মিথস্ক্রিয়া ছাড়াই নিষ্ক্রিয়ভাবে ডেমোনস্ট্রেশনগুলি পর্যবেক্ষণ করে, যা সাধারণত পর্যবেক্ষণমূলক ইমিটেশনে দেখা যায়।

📖

শব্দ

এক্সপার্ট ডেমোনস্ট্রেশন

বিশেষজ্ঞ দ্বারা প্রদত্ত ট্র্যাজেক্টরি বা স্টেটের সংগ্রহ যা ইমিটেশন লার্নিং-এর জন্য রেফারেন্স হিসেবে কাজ করে, বিশেষ করে যখন কাজের অ্যাক্সেস নেই এমন পদ্ধতিতে গুরুত্বপূর্ণ।

📖

শব্দ

স্টেট-অ্যাকশন ডিস্ট্রিবিউশন

স্টেট এবং অ্যাকশনের যৌথ বন্টন যা এজেন্ট আনুমানিক করতে চায়, প্রায়শই শুধুমাত্র স্টেট ডিস্ট্রিবিউশন থেকে পর্যবেক্ষণমূলক ইমিটেশনে অনুমান করা হয়।

📖

শব্দ

ট্র্যাজেক্টরি-ভিত্তিক লার্নিং

শেখার একটি পদ্ধতি যা পৃথক স্টেট-অ্যাকশন সিদ্ধান্তের পরিবর্তে সম্পূর্ণ ট্র্যাজেক্টরি পুনরুত্পাদনের উপর ফোকাস করে, যা অ্যাকশন ছাড়া পর্যবেক্ষণের জন্য উপযোগী।

📖

শব্দ

ডাইনামিক্স মডেল

একটি মডেল যা বিশেষজ্ঞ ডেমোনস্ট্রেশনে পরপর স্টেটগুলির মধ্যে ট্রানজিশন শেখে, যখন অ্যাকশনগুলি পর্যবেক্ষণ করা হয় না তখন সেগুলি অনুমান করার জন্য অপরিহার্য।

📖

শব্দ

অকুপেন্সি মেজার

একটি পরিসংখ্যানগত পরিমাপ যা প্রতিটি স্টেট-অ্যাকশনের পরিদর্শনের ফ্রিকোয়েন্সি পরিমাপ করে, যখন শুধুমাত্র স্টেট পরিদর্শন পর্যবেক্ষণযোগ্য হয় এমন প্রসঙ্গে উপযোগী।

এআই গ্লসারি

ইনভার্স রিইনফোর্সমেন্ট লার্নিং

শুধুমাত্র স্টেট ভিত্তিক ইমিটেশন লার্নিং

ট্র্যাজেক্টরি ম্যাচিং

গেইল

ডেটাসেট অ্যাগ্রিগেশন

ফরওয়ার্ড-ফরওয়ার্ড অ্যালগরিদম

পর্যবেক্ষণ-ভিত্তিক শেখা

স্টেট ডিস্ট্রিবিউশন ম্যাচিং

নো-অ্যাকশন ইমিটেশন

প্যাসিভ লার্নিং

এক্সপার্ট ডেমোনস্ট্রেশন

স্টেট-অ্যাকশন ডিস্ট্রিবিউশন

ট্র্যাজেক্টরি-ভিত্তিক লার্নিং

ডাইনামিক্স মডেল

অকুপেন্সি মেজার

কোন ফলাফল পাওয়া যায়নি