এআই গ্লসারি
কৃত্রিম বুদ্ধিমত্তার সম্পূর্ণ অভিধান
সীমাবদ্ধতা সহ শক্তিবৃদ্ধি শিক্ষণ
একটি শিক্ষণ প্যারাডাইম যেখানে এজেন্ট একটি প্রধান লক্ষ্য অপ্টিমাইজ করার পাশাপাশি রাজ্য, ক্রিয়া বা ক্রমবর্ধমান পুরস্কারের উপর সংজ্ঞায়িত সীমাবদ্ধতাগুলি মেনে চলার নিশ্চয়তা দেয়।
সীমাবদ্ধতা ফাংশন
পরিবেশে সীমাবদ্ধতা লঙ্ঘনের পরিমাণ নির্ধারণকারী গাণিতিক ফাংশন, সাধারণত ট্র্যাজেক্টোরির উপর প্রত্যাশা হিসাবে প্রকাশ করা হয় যা একটি পূর্বনির্ধারিত থ্রেশহোল্ডের নিচে থাকতে হবে।
বর্ধিত ল্যাগ্রাঞ্জিয়ান
শক্তিবৃদ্ধি শিক্ষণে সীমাবদ্ধতা কার্যকরভাবে পরিচালনার জন্য ল্যাগ্রেঞ্জ গুণক এবং দ্বিঘাত জরিমানা পদ সমন্বিত অপ্টিমাইজেশন পদ্ধতি।
অভ্যন্তরীণ পয়েন্ট পদ্ধতি
একটি অপ্টিমাইজেশন অ্যালগরিদম যা শিক্ষণ প্রক্রিয়া চলাকালীন সীমাবদ্ধতা কঠোরভাবে বজায় রাখার জন্য বাধা ফাংশন ব্যবহার করে অনুমোদনযোগ্য ডোমেনের ভিতরে নেভিগেট করে।
সীমাবদ্ধতা সহ নীতি অপ্টিমাইজেশন
নির্দিষ্ট ব্যয় বা নিরাপত্তা সীমাবদ্ধতার অধিকারে পুরস্কার সর্বাধিক করার জন্য নীতি অপ্টিমাইজেশনকে অভিযোজিত করে এমন শক্তিবৃদ্ধি শিক্ষণ অ্যালগরিদম।
সীমাবদ্ধতা সহ মান ফাংশন
Q এবং V মান ফাংশনের সম্প্রসারণ যা অতিরিক্ত লক্ষ্য হিসাবে সীমাবদ্ধতাগুলি অন্তর্ভুক্ত করে, একই সাথে কর্মক্ষমতা এবং সীমাবদ্ধতা মেনে চলার মূল্যায়ন করতে সক্ষম করে।
অনুমোদনযোগ্য নীতিসমূহের সেট
সমস্ত নির্দিষ্ট সীমাবদ্ধতা পূরণকারী নীতিসমূহের স্থান, যা অনুসন্ধানের ডোমেন গঠন করে যেখানে অ্যালগরিদমকে সর্বোত্তম নীতি সনাক্ত করতে হবে।
ল্যাগ্রেঞ্জ গুণক
দ্বৈত গঠনে প্রতিটি সীমাবদ্ধতার সাথে যুক্ত স্কেলার ভেরিয়েবল, লক্ষ্য অপ্টিমাইজেশন এবং সীমাবদ্ধতা সন্তুষ্টির মধ্যে ভারসাম্য বজায় রাখার জন্য গতিশীলভাবে সামঞ্জস্য করা হয়।
Satisfiabilité des Contraintes
Propriété fondamentale garantissant l'existence d'au moins une politique respectant toutes les contraintes imposées dans le problème d'apprentissage par renforcement.
Méthode de Projection
Technique projetant itérativement les mises à jour de politique sur l'ensemble des politiques admissibles pour garantir le maintien des contraintes durant l'optimisation.
Apprentissage par Renforcement Prudent
Sous-domaine du RL avec contraintes se concentrant sur le maintien de la sécurité de l'agent durant l'exploration, typiquement via des contraintes sur les états critiques.
Méthode de la Barrière Logarithmique
Approche d'optimisation ajoutant des termes pénalité tendant vers l'infini près des frontières de contraintes, forçant l'agent à rester strictement dans le domaine admissible.
Optimisation Biconvexe
Problème d'optimisation où la fonction objectif est convexe par rapport aux variables de politique et aux multiplicateurs de Lagrange séparément, mais pas conjointement.
Dualité en Apprentissage par Renforcement
Principe mathématique transformant un problème contraint en problème non contraint via multiplicateurs de Lagrange, facilitant l'optimisation tout en garantissant la faisabilité.
Méthodes de Pénalité
Famille d'algorithmes intégrant les violations de contraintes dans la fonction objectif par des termes de pénalité, transformant le problème contraint en optimisation non contrainte.
Zone de Confiance
Région autour de la politique actuelle où les approximations locales sont considérées valides, limitant les mises à jour pour respecter les contraintes de stabilité et de performance.
সীমাবদ্ধতা সহ গতিশীল প্রোগ্রামিং
সঞ্চিত পুরস্কারের উপর সীমাবদ্ধতা সংযুক্ত করে গতিশীল প্রোগ্রামিং এর সম্প্রসারণ, যা স্ট্যান্ডার্ড বেলম্যান সমীকরণগুলির পরিবর্তন প্রয়োজন করে।
ব্যাকআপ নীতি
প্রাথমিক নীতি সীমাবদ্ধতা লঙ্ঘনের ঝুঁকিতে থাকলে সীমাবদ্ধতা নিশ্চিত করার জন্য পূর্বনির্ধারিত নীতি, সমালোচনামূলক সিস্টেমে নিরাপত্তা প্রক্রিয়া হিসেবে ব্যবহৃত।
সীমাবদ্ধতা সংবেদনশীলতা বিশ্লেষণ
সীমাবদ্ধতা সীমার পরিবর্তনের সর্বোত্তম নীতির উপর প্রভাব অধ্যয়ন, কর্মক্ষমতা এবং নিরাপত্তার মধ্যে সমন্বয় সূক্ষ্মভাবে সামঞ্জস্য করতে সক্ষম করে।
সীমাবদ্ধতা নিয়মিতকরণ
সীমাবদ্ধতা-ভিত্তিক নিয়মিতকরণ পদ যোগ করে শেখাকে স্থিতিশীল করা এবং সীমাবদ্ধতা প্রান্তিকভাবে লঙ্ঘনকারী চরম সমাধান এড়ানোর কৌশল।