ক্লাসিক্যাল রিইনফোর্সমেন্ট লার্নিং - কৃত্রিম বুদ্ধিমত্তা শব্দাবলী

📂

উপ-বিভাগ

Q-learning

মডেল-মুক্ত শক্তিশালী শেখার অ্যালগরিদম যা সর্বোত্তম নীতি খুঁজে পেতে অ্যাকশন-স্টেট মান ফাংশন শেখে।

16 শব্দ

📂

উপ-বিভাগ

SARSA

অন-পলিসি শক্তিশালীকরণ শিক্ষণ অ্যালগরিদম যা প্রকৃতপক্ষে অনুসরণ করা কর্ম ব্যবহার করে Q মান আপডেট করে।

13 শব্দ

📂

উপ-বিভাগ

ডাইনামিক প্রোগ্রামিং

এমডিপি সমাধানের জন্য মান পুনরাবৃত্তি এবং নীতি পুনরাবৃত্তি সহ গাণিতিক পদ্ধতি।

16 শব্দ

📂

উপ-বিভাগ

মন্টে কার্লো পদ্ধতি

মান অনুমানের জন্য সম্পূর্ণ পর্বের নমুনা ভিত্তিক শেখার কৌশল।

16 শব্দ

📂

উপ-বিভাগ

Apprentissage Temporel Différentiel

ডাইনামিক প্রোগ্রামিং এবং মন্টে কার্লোর সংমিশ্রণ যা প্রতিটি ধাপের পরে অনলাইন আপডেটের অনুমতি দেয়।

14 শব্দ

📂

উপ-বিভাগ

ডাবল কিউ-লার্নিং

কর্ম মানের অতিমূল্যায়নের পক্ষপাত হ্রাস করতে দুটি কিউ অনুমানকারী ব্যবহার করে কিউ-লার্নিং-এর একটি প্রকরণ।

16 শব্দ

📂

উপ-বিভাগ

Approximation de Fonction

Extension des méthodes tabulaires aux espaces d'états continus utilisant des approximateurs comme réseaux de neurones.

12 শব্দ

📂

উপ-বিভাগ

মডেল সহ শিখন

যেসব পদ্ধতিতে পরিবেশের রূপান্তর মডেলটি জানা থাকে বা শেখা হয়, যাতে কর্ম পরিকল্পনা করা যায়।

14 শব্দ

📂

উপ-বিভাগ

অনুসন্ধান বনাম শোষণ

অর্জিত জ্ঞান কাজে লাগানো এবং নতুন পদক্ষেপ অনুসন্ধানের মধ্যে ভারসাম্য বজায় রাখার কৌশল।

9 শব্দ

📂

উপ-বিভাগ

মার্কভ ডিসিশন প্রসেস

স্টোকাস্টিক পরিবেশে অনুক্রমিক সিদ্ধান্ত গ্রহণের সমস্যা মডেল করার জন্য একটি গাণিতিক ফর্মাল ফ্রেমওয়ার্ক।

19 শব্দ

📂

উপ-বিভাগ

মাল্টি-এজেন্ট লার্নিং

একাধিক এজেন্টের মিথস্ক্রিয়াযুক্ত পরিবেশে রিইনফোর্সমেন্ট লার্নিং-এর সম্প্রসারণ।

16 শব্দ

📂

উপ-বিভাগ

Processus Observables Partiellement

Généralisation des MDP où l'état n'est que partiellement observable, nécessitant des croyances sur l'état.

14 শব্দ

📂

উপ-বিভাগ

Méthodes de Gradient de Politique

Optimisation directe des paramètres de politique en suivant le gradient des performances attendues.

8 শব্দ

📂

উপ-বিভাগ

যোগ্যতার চিহ্ন

সময়গত ক্রেডিটের মাধ্যমে শেখার গতি বাড়াতে টিডি এবং মন্টে কার্লোর সুবিধাগুলো একত্রিত করার প্রক্রিয়া।

17 শব্দ

📂

উপ-বিভাগ

মানের ফ্যাক্টরাইজেশন

শেখার স্থিতিশীলতা উন্নত করতে অবস্থা এবং সুবিধা ফাংশনে Q-এর পচন।

15 শব্দ

এআই গ্লসারি

Q-learning

SARSA

ডাইনামিক প্রোগ্রামিং

মন্টে কার্লো পদ্ধতি

Apprentissage Temporel Différentiel

ডাবল কিউ-লার্নিং

Approximation de Fonction

মডেল সহ শিখন

অনুসন্ধান বনাম শোষণ

মার্কভ ডিসিশন প্রসেস

মাল্টি-এজেন্ট লার্নিং

Processus Observables Partiellement

Méthodes de Gradient de Politique

যোগ্যতার চিহ্ন

মানের ফ্যাক্টরাইজেশন

কোন ফলাফল পাওয়া যায়নি