SARSA

📖

শব্দ

অন-পলিসি রিইনফোর্সমেন্ট লার্নিং অ্যালগরিদম যা কুইন্টুপলেট (স্টেট, অ্যাকশন, রিওয়ার্ড, নেক্সট স্টেট, নেক্সট অ্যাকশন) ব্যবহার করে কিউ-ভ্যালু আপডেট করে, কিউ-লার্নিং-এর বিপরীতে যা পরবর্তী সর্বোত্তম অ্যাকশন ব্যবহার করে।

📖

শব্দ

অন-পলিসি

শেখার একটি পদ্ধতি যেখানে মূল্যায়ন নীতি এবং উন্নতি নীতি অভিন্ন, এজেন্ট একটি পৃথক আচরণ নীতির পরিবর্তে সরাসরি তার বর্তমান নীতি অনুসরণ করে শেখে।

📖

শব্দ

এপসিলন-গ্রিডি পলিসি

অ্যাকশন কৌশল যা (1-ε) সম্ভাবনা সহ সর্বোত্তম অ্যাকশন এবং ε সম্ভাবনা সহ একটি এলোমেলো অ্যাকশন নির্বাচন করে, SARSA-তে শোষণ এবং অন্বেষণের মধ্যে ভারসাম্য নিশ্চিত করে।

📖

শব্দ

কিউ-ভ্যালু ফাংশন

মূল্যায়ন ফাংশন যা একটি নির্দিষ্ট অবস্থায় একটি নির্দিষ্ট অ্যাকশন নেওয়ার পরে নির্ধারিত নীতি অনুসরণ করে প্রত্যাশিত ক্রমিক পুরস্কার অনুমান করে।

📖

শব্দ

SARSA কনভারজেন্স

একটি বৈশিষ্ট্য যা নিশ্চিত করে যে SARSA অ্যালগরিদম নির্দিষ্ট শর্তে সর্বোত্তম কিউ-ভ্যালু ফাংশনে রূপান্তরিত হয়, বিশেষত হ্রাসমান লার্নিং রেট এবং GLIE নীতি সহ।

📖

শব্দ

কিউ টেবিল

দ্বি-মাত্রিক ডেটা স্ট্রাকচার যা বিচ্ছিন্ন স্টেট স্পেসের জন্য SARSA-র ট্যাবুলার সংস্করণে প্রতিটি স্টেট-অ্যাকশন জোড়ার জন্য কিউ ভ্যালু সংরক্ষণ করে।

📖

শব্দ

GLIE পলিসি

'গ্রিডি ইন দ্য লিমিট উইথ ইনফিনিট এক্সপ্লোরেশন' নীতি যা লোভী নীতিতে রূপান্তরিত হওয়ার সময় পর্যাপ্ত অন্বেষণ নিশ্চিত করে, SARSA-র কনভারজেন্সের জন্য অপরিহার্য।

📖

শব্দ

SARSA আপডেট সমীকরণ

সূত্র Q(s,a) ← Q(s,a) + α[r + γQ(s',a') - Q(s,a)] যা সর্বোত্তম অ্যাকশনের পরিবর্তে প্রকৃতপক্ষে সম্পাদিত অ্যাকশন ব্যবহার করে কিউ ভ্যালুগুলি পুনরাবৃত্তিমূলকভাবে সামঞ্জস্য করে।

📖

শব্দ

টিডি ত্রুটি

অনুমান করা Q মান এবং বাস্তব অভিজ্ঞতার উপর ভিত্তি করে লক্ষ্য মানের মধ্যে পার্থক্য উপস্থাপনকারী সময়গত পার্থক্য [r + γQ(s',a') - Q(s,a)], যা শেখার নির্দেশনা দিতে ব্যবহৃত হয়।

📖

শব্দ

SARSA(λ)

SARSA-এর একটি সম্প্রসারণ যা λ প্যারামিটার সহ যোগ্যতার ট্রেস ব্যবহার করে, একটি পর্বে পূর্বে পরিদর্শন করা অবস্থা এবং ক্রিয়াকলাপে পুরস্কার ছড়িয়ে দিয়ে শেখার গতি বাড়ায়।

📖

শব্দ

যোগ্যতার ট্রেস

একটি প্রক্রিয়া যা সূচকীয় ক্ষয় সহ সাম্প্রতিক পরিদর্শন করা অবস্থা-ক্রিয়া জোড়াগুলি স্মৃতিতে রাখে, SARSA(λ)-এ ক্রেডিট আরও কার্যকরভাবে বরাদ্দ করতে সক্ষম করে।

📖

শব্দ

আনুমানিক সমালোচনা

SARSA-এর একটি প্রকরণ যেখানে Q ফাংশন একটি টেবিলের পরিবর্তে একটি প্যারামেট্রিক মডেল (নিউরাল নেটওয়ার্ক) দ্বারা অনুমান করা হয়, যা অবিচ্ছিন্ন বা উচ্চ-মাত্রিক অবস্থার স্থান পরিচালনা করতে সক্ষম করে।

📖

শব্দ

SARSA স্থিতিশীলতা

জটিল পরিবেশে শেখার স্থিতিশীলতা উন্নত করতে ব্যবহৃত কৌশল যেমন পুনরুত্পাদনযোগ্য অভিজ্ঞতা নমুনায়ন বা পুরস্কারের স্বাভাবিকীকরণ।

এআই গ্লসারি

SARSA

অন-পলিসি

এপসিলন-গ্রিডি পলিসি

কিউ-ভ্যালু ফাংশন

SARSA কনভারজেন্স

কিউ টেবিল

GLIE পলিসি

SARSA আপডেট সমীকরণ

টিডি ত্রুটি

SARSA(λ)

যোগ্যতার ট্রেস

আনুমানিক সমালোচনা

SARSA স্থিতিশীলতা

কোন ফলাফল পাওয়া যায়নি