এআই গ্লসারি
কৃত্রিম বুদ্ধিমত্তার সম্পূর্ণ অভিধান
Q-learning
মডেল-মুক্ত শক্তিশালী শেখার অ্যালগরিদম যা সর্বোত্তম নীতি খুঁজে পেতে অ্যাকশন-স্টেট মান ফাংশন শেখে।
SARSA
অন-পলিসি শক্তিশালীকরণ শিক্ষণ অ্যালগরিদম যা প্রকৃতপক্ষে অনুসরণ করা কর্ম ব্যবহার করে Q মান আপডেট করে।
ডাইনামিক প্রোগ্রামিং
এমডিপি সমাধানের জন্য মান পুনরাবৃত্তি এবং নীতি পুনরাবৃত্তি সহ গাণিতিক পদ্ধতি।
মন্টে কার্লো পদ্ধতি
মান অনুমানের জন্য সম্পূর্ণ পর্বের নমুনা ভিত্তিক শেখার কৌশল।
Apprentissage Temporel Différentiel
ডাইনামিক প্রোগ্রামিং এবং মন্টে কার্লোর সংমিশ্রণ যা প্রতিটি ধাপের পরে অনলাইন আপডেটের অনুমতি দেয়।
ডাবল কিউ-লার্নিং
কর্ম মানের অতিমূল্যায়নের পক্ষপাত হ্রাস করতে দুটি কিউ অনুমানকারী ব্যবহার করে কিউ-লার্নিং-এর একটি প্রকরণ।
Approximation de Fonction
Extension des méthodes tabulaires aux espaces d'états continus utilisant des approximateurs comme réseaux de neurones.
মডেল সহ শিখন
যেসব পদ্ধতিতে পরিবেশের রূপান্তর মডেলটি জানা থাকে বা শেখা হয়, যাতে কর্ম পরিকল্পনা করা যায়।
অনুসন্ধান বনাম শোষণ
অর্জিত জ্ঞান কাজে লাগানো এবং নতুন পদক্ষেপ অনুসন্ধানের মধ্যে ভারসাম্য বজায় রাখার কৌশল।
মার্কভ ডিসিশন প্রসেস
স্টোকাস্টিক পরিবেশে অনুক্রমিক সিদ্ধান্ত গ্রহণের সমস্যা মডেল করার জন্য একটি গাণিতিক ফর্মাল ফ্রেমওয়ার্ক।
মাল্টি-এজেন্ট লার্নিং
একাধিক এজেন্টের মিথস্ক্রিয়াযুক্ত পরিবেশে রিইনফোর্সমেন্ট লার্নিং-এর সম্প্রসারণ।
Processus Observables Partiellement
Généralisation des MDP où l'état n'est que partiellement observable, nécessitant des croyances sur l'état.
Méthodes de Gradient de Politique
Optimisation directe des paramètres de politique en suivant le gradient des performances attendues.
যোগ্যতার চিহ্ন
সময়গত ক্রেডিটের মাধ্যমে শেখার গতি বাড়াতে টিডি এবং মন্টে কার্লোর সুবিধাগুলো একত্রিত করার প্রক্রিয়া।
মানের ফ্যাক্টরাইজেশন
শেখার স্থিতিশীলতা উন্নত করতে অবস্থা এবং সুবিধা ফাংশনে Q-এর পচন।