এআই গ্লসারি
কৃত্রিম বুদ্ধিমত্তার সম্পূর্ণ অভিধান
Clonage Comportemental
Technique d'apprentissage par imitation où un agent apprend directement à reproduire les actions d'un expert en minimisant l'erreur entre ses prédictions et les démonstrations fournies. Cette approche transforme le problème d'apprentissage en un problème de supervision standard.
Apprentissage par Imitation
Paradigme d'apprentissage automatique où un agent acquiert des compétences en observant et reproduisant le comportement d'experts, sans nécessiter de récompenses explicites. Cette méthode permet d'accélérer l'apprentissage en capitalisant sur les connaissances préexistantes.
Politique d'Action
Fonction mathématique qui mappe chaque état à une distribution de probabilités sur les actions possibles, déterminant le comportement de l'agent. Dans le clonage comportemental, cette politique est apprise directement à partir des démonstrations expertes.
Démonstrations Expertes
Ensemble de trajectoires ou d'exemples d'états-actions fournis par un expert humain ou système optimal, servant de données d'entraînement pour l'apprentissage par imitation. Ces démonstrations encapsulent la stratégie optimale à reproduire.
Erreur de Prédiction
Mesure quantifiant la différence entre les actions prédites par l'agent et les actions de l'expert dans les mêmes états, souvent calculée via l'erreur quadratique moyenne ou la divergence KL. Minimiser cette erreur est l'objectif principal du clonage comportemental.
Apprentissage Supervisé
Cadre d'apprentissage où le modèle est entraîné sur des paires d'entrées-sorties étiquetées, utilisé dans le clonage comportemental pour apprendre la politique experte. Cette approche permet de transformer le problème d'imitation en une tâche de classification ou de régression.
Distribution d'Actions
Représentation probabiliste des actions possibles dans un état donné, capturant les préférences et l'incertitude de l'expert. Le clonage comportemental vise à reproduire cette distribution plutôt qu'une seule action déterministe.
Généralisation
Capacité du modèle cloné à performer correctement sur des états non vus pendant l'entraînement, cruciale pour une application robuste du clonage comportemental. Une bonne généralisation évite le sur-apprentissage aux démonstrations spécifiques.
ওভারফিটিং
এমন একটি ঘটনা যেখানে মডেল প্রশিক্ষণ ডেমো নিখুঁতভাবে শিখে কিন্তু নতুন পরিস্থিতিতে সাধারণীকরণ করতে ব্যর্থ হয়, যা আচরণগত ক্লোনিংয়ের কার্যকারিতা সীমিত করে। ট্র্যাজেক্টোরিতে ডেটার পারস্পরিক সম্পর্ক এই সমস্যাকে আরও বাড়িয়ে তোলে।
অফলাইন লার্নিং
একটি প্যারাডাইম যেখানে এজেন্ট শুধুমাত্র একটি নির্দিষ্ট ডেটাসেট থেকে শেখে পরিবেশের সাথে কোন ইন্টারঅ্যাকশন ছাড়াই, যা আচরণগত ক্লোনিংয়ের প্রধান বৈশিষ্ট্য। এই পদ্ধতিটি সক্রিয় এক্সপ্লোরেশনের সাথে যুক্ত খরচ এবং ঝুঁকি দূর করে।
ত্রুটি সংশোধন
একটি আচরণগত ক্লোনিং সিস্টেমের ভুল করার পরে পুনরুদ্ধার করার ক্ষমতা, যা প্রায়শই ভুল অবস্থার অভিজ্ঞতার অভাবে সীমিত হয়। এই সীমাবদ্ধতা রিইনফোর্সমেন্ট লার্নিংয়ের সাথে হাইব্রিড কৌশল ব্যবহারের জন্য অনুপ্রাণিত করে।
রিইনফোর্সমেন্ট লার্নিং
শেখার একটি প্যারাডাইম যেখানে একটি এজেন্ট ট্রায়াল এবং এরর মাধ্যমে ক্রমবর্ধমান পুরস্কার সর্বাধিক করে, প্রায়শই আচরণগত ক্লোনিংয়ের সাথে মিলিত হয়ে রোবাস্টনেস উন্নত করে। এই পদ্ধতিটি ডেমোনস্ট্রেশনে অনুপস্থিত ত্রুটিগুলি সংশোধন করতে দেয়।
ইনভার্স ইমিটেশন
বিশেষজ্ঞ ডেমোনস্ট্রেশন থেকে অন্তর্নিহিত পুরস্কার ফাংশন বা উদ্দেশ্য অনুমানের প্রক্রিয়া, সরাসরি আচরণগত ক্লোনিংয়ের বিকল্প। এই পদ্ধতি ভাল সাধারণীকরণের অনুমতি দেয় কিন্তু বাস্তবায়ন করা আরও জটিল।
ইমিটেটিভ রিইনফোর্সমেন্ট লার্নিং
অ্যালগরিদমের একটি পরিবার যা উভয় পদ্ধতির সুবিধা নেওয়ার জন্য ইমিটেশন এবং রিইনফোর্সমেন্ট লার্নিংকে একত্রিত করে, এক্সপ্লোরেশন গাইড হিসাবে ডেমোনস্ট্রেশন ব্যবহার করে। এই পদ্ধতিগুলি রোবাস্টনেস এবং ত্রুটি সংশোধন উন্নত করে।
পলিসি ডাইভারজেন্স
একটি ঘটনা যেখানে শেখা পলিসি পরিবেশের সাথে ইন্টারঅ্যাকশনের সময় ধীরে ধীরে বিশেষজ্ঞ পলিসি থেকে বিচ্যুত হয়, পারফরম্যান্সকে ক্ষতিগ্রস্ত করে। এই ডাইভারজেন্স বিশুদ্ধ আচরণগত ক্লোনিংয়ের একটি প্রধান সীমাবদ্ধতা।
লার্নিং স্টেবিলিটি
একটি লার্নিং অ্যালগরিদমের সম্পত্তি যা অসিলেশন বা ডাইভারজেন্স ছাড়াই একটি সন্তোষজনক সমাধানের দিকে অনুমানযোগ্যভাবে কনভার্জ করে, আচরণগত ক্লোনিং সিস্টেমে সমালোচনামূলক। স্থিতিশীলতা ডেমোনস্ট্রেশনের গুণমান এবং কভারেজের উপর নির্ভর করে।
জ্ঞান স্থানান্তর
বহিরঙ্গন অনুকরণের মাধ্যমে শেখা দক্ষতাগুলো অনুরূপ কিন্তু ভিন্ন কাজ বা পরিবেশে প্রয়োগ করার ক্ষমতা, যা স্কেলেবিলিটির জন্য অপরিহার্য। সফল স্থানান্তরের জন্য শক্তিশালী এবং অপরিবর্তনীয় অবস্থার উপস্থাপনা প্রয়োজন।