এআই গ্লসারি
কৃত্রিম বুদ্ধিমত্তার সম্পূর্ণ অভিধান
Zero-Sum Game
Scénario théorique où le gain total d'un agent correspond exactement à la perte d'un autre, fondamental dans l'apprentissage adversarial multi-agents pour modéliser des compétitions strictes.
Minimax Algorithm
Algorithme décisionnel qui maximise le gain minimum possible dans des situations adversariales, utilisé pour développer des stratégies robustes contre les pires actions de l'adversaire.
Nash Equilibrium
État stable où aucun agent ne peut améliorer sa stratégie en modifiant unilatéralement son comportement, crucial pour analyser les points d'équilibre dans les MARL adversariaux.
Self-Play
Méthodologie d'entraînement où un agent apprend en compétant contre des copies de lui-même avec des stratégies évolutives, éliminant le besoin de données externes.
Robust Policy
Politique d'apprentissage par renforcement maintenissant des performances élevées face à des perturbations adversariales ou des changements inattendus dans l'environnement.
Worst-Case Optimization
Paradigme d'optimisation visant à maximiser les performances dans les scénarios les plus défavorables, essentiel pour développer des agents résilients aux attaques adversariales.
Adversarial Attack
Action délibérée d'un agent visant à dégrader les performances d'un autre agent par manipulation de l'environnement ou injection de perturbations malveillantes.
Defense Strategy
Ensemble de mécanismes et politiques conçus pour détecter, contrer et récupérer des attaques adversariales dans les systèmes multi-agents.
প্রতিকূল পরিবেশ
একটি শিক্ষার পরিবেশ যা সক্রিয়ভাবে এজেন্টদের জন্য চ্যালেঞ্জ এবং বাধা উপস্থাপন করে, বাস্তব জীবনের প্রতিকূল বা অপ্রত্যাশিত অবস্থার অনুকরণ করে।
নীতি পাতন
জ্ঞান স্থানান্তরের একটি কৌশল যেখানে একটি এজেন্ট দ্বারা শেখা জটিল নীতিকে আরও সরল এবং কার্যকর আকারে সংকুচিত করা হয়, প্রায়শই প্রতিকূল প্রশিক্ষণের পরে ব্যবহৃত হয়।
প্রতিকূল রিইনফোর্সমেন্ট লার্নিং
রিইনফোর্সমেন্ট লার্নিংয়ের একটি প্যারাডাইম যা রোবাস্টনেস এবং জেনারালাইজেশন ক্ষমতা উন্নত করার জন্য প্রশিক্ষণ প্রক্রিয়ায় স্পষ্টভাবে প্রতিকূল এজেন্টদের অন্তর্ভুক্ত করে।
মাল্টি-এজেন্ট প্রতিকূল ব্যান্ডিট
মাল্টি-আর্মড ব্যান্ডিট সমস্যার একটি সম্প্রসারণ যেখানে একাধিক এজেন্ট একটি পরিবেশে ইন্টারঅ্যাক্ট করে যেখানে পুরস্কারগুলি প্রতিকূলদের দ্বারা সম্ভাব্যভাবে ম্যানিপুলেট করা হয়।
প্রতিকূল অনুকরণ শিক্ষা
অনুকরণ শিক্ষার একটি পদ্ধতি যা বিশেষজ্ঞদের তুলনায় অনুকরণ করা আচরণের গুণমান মূল্যায়ন এবং উন্নত করতে প্রতিকূল ডিসক্রিমিনেটর ব্যবহার করে।
রোবাস্টনেস পরীক্ষা
এজেন্টদের স্থিতিস্থাপকতা পরিমাপ এবং দুর্বলতা চিহ্নিত করার জন্য চরম পরিস্থিতি এবং সমন্বিত আক্রমণের মুখে এজেন্টদের পারফরম্যান্সের পদ্ধতিগত মূল্যায়ন।
প্রতিকূল বিঘ্ন
পর্যবেক্ষণ বা পরিবেশের সূক্ষ্ম কিন্তু ইচ্ছাকৃত পরিবর্তন যা একটি লক্ষ্য এজেন্টের সিদ্ধান্ত গ্রহণে ত্রুটি সৃষ্টি করার জন্য ডিজাইন করা হয়েছে।
কৌশলগত অনিশ্চয়তা
প্রতিকূলদের ভবিষ্যতের অভিপ্রায় এবং কৌশল সম্পর্কে অনিশ্চয়তা, যা মাল্টি-এজেন্ট সিদ্ধান্ত গ্রহণে সম্ভাব্যতা ভিত্তিক এবং অভিযোজিত পদ্ধতির প্রয়োজন।
Game-Theoretic MARL
Application de la théorie des jeux à l'apprentissage par renforcement multi-agents pour analyser et optimiser les comportements stratégiques dans des contextes compétitifs.