এআই গ্লসারি
কৃত্রিম বুদ্ধিমত্তার সম্পূর্ণ অভিধান
SARSA
অন-পলিসি রিইনফোর্সমেন্ট লার্নিং অ্যালগরিদম যা কুইন্টুপলেট (স্টেট, অ্যাকশন, রিওয়ার্ড, নেক্সট স্টেট, নেক্সট অ্যাকশন) ব্যবহার করে কিউ-ভ্যালু আপডেট করে, কিউ-লার্নিং-এর বিপরীতে যা পরবর্তী সর্বোত্তম অ্যাকশন ব্যবহার করে।
অন-পলিসি
শেখার একটি পদ্ধতি যেখানে মূল্যায়ন নীতি এবং উন্নতি নীতি অভিন্ন, এজেন্ট একটি পৃথক আচরণ নীতির পরিবর্তে সরাসরি তার বর্তমান নীতি অনুসরণ করে শেখে।
এপসিলন-গ্রিডি পলিসি
অ্যাকশন কৌশল যা (1-ε) সম্ভাবনা সহ সর্বোত্তম অ্যাকশন এবং ε সম্ভাবনা সহ একটি এলোমেলো অ্যাকশন নির্বাচন করে, SARSA-তে শোষণ এবং অন্বেষণের মধ্যে ভারসাম্য নিশ্চিত করে।
কিউ-ভ্যালু ফাংশন
মূল্যায়ন ফাংশন যা একটি নির্দিষ্ট অবস্থায় একটি নির্দিষ্ট অ্যাকশন নেওয়ার পরে নির্ধারিত নীতি অনুসরণ করে প্রত্যাশিত ক্রমিক পুরস্কার অনুমান করে।
SARSA কনভারজেন্স
একটি বৈশিষ্ট্য যা নিশ্চিত করে যে SARSA অ্যালগরিদম নির্দিষ্ট শর্তে সর্বোত্তম কিউ-ভ্যালু ফাংশনে রূপান্তরিত হয়, বিশেষত হ্রাসমান লার্নিং রেট এবং GLIE নীতি সহ।
কিউ টেবিল
দ্বি-মাত্রিক ডেটা স্ট্রাকচার যা বিচ্ছিন্ন স্টেট স্পেসের জন্য SARSA-র ট্যাবুলার সংস্করণে প্রতিটি স্টেট-অ্যাকশন জোড়ার জন্য কিউ ভ্যালু সংরক্ষণ করে।
GLIE পলিসি
'গ্রিডি ইন দ্য লিমিট উইথ ইনফিনিট এক্সপ্লোরেশন' নীতি যা লোভী নীতিতে রূপান্তরিত হওয়ার সময় পর্যাপ্ত অন্বেষণ নিশ্চিত করে, SARSA-র কনভারজেন্সের জন্য অপরিহার্য।
SARSA আপডেট সমীকরণ
সূত্র Q(s,a) ← Q(s,a) + α[r + γQ(s',a') - Q(s,a)] যা সর্বোত্তম অ্যাকশনের পরিবর্তে প্রকৃতপক্ষে সম্পাদিত অ্যাকশন ব্যবহার করে কিউ ভ্যালুগুলি পুনরাবৃত্তিমূলকভাবে সামঞ্জস্য করে।
টিডি ত্রুটি
অনুমান করা Q মান এবং বাস্তব অভিজ্ঞতার উপর ভিত্তি করে লক্ষ্য মানের মধ্যে পার্থক্য উপস্থাপনকারী সময়গত পার্থক্য [r + γQ(s',a') - Q(s,a)], যা শেখার নির্দেশনা দিতে ব্যবহৃত হয়।
SARSA(λ)
SARSA-এর একটি সম্প্রসারণ যা λ প্যারামিটার সহ যোগ্যতার ট্রেস ব্যবহার করে, একটি পর্বে পূর্বে পরিদর্শন করা অবস্থা এবং ক্রিয়াকলাপে পুরস্কার ছড়িয়ে দিয়ে শেখার গতি বাড়ায়।
যোগ্যতার ট্রেস
একটি প্রক্রিয়া যা সূচকীয় ক্ষয় সহ সাম্প্রতিক পরিদর্শন করা অবস্থা-ক্রিয়া জোড়াগুলি স্মৃতিতে রাখে, SARSA(λ)-এ ক্রেডিট আরও কার্যকরভাবে বরাদ্দ করতে সক্ষম করে।
আনুমানিক সমালোচনা
SARSA-এর একটি প্রকরণ যেখানে Q ফাংশন একটি টেবিলের পরিবর্তে একটি প্যারামেট্রিক মডেল (নিউরাল নেটওয়ার্ক) দ্বারা অনুমান করা হয়, যা অবিচ্ছিন্ন বা উচ্চ-মাত্রিক অবস্থার স্থান পরিচালনা করতে সক্ষম করে।
SARSA স্থিতিশীলতা
জটিল পরিবেশে শেখার স্থিতিশীলতা উন্নত করতে ব্যবহৃত কৌশল যেমন পুনরুত্পাদনযোগ্য অভিজ্ঞতা নমুনায়ন বা পুরস্কারের স্বাভাবিকীকরণ।