এআই গ্লসারি
কৃত্রিম বুদ্ধিমত্তার সম্পূর্ণ অভিধান
MuZero
একটি রিইনফোর্সমেন্ট লার্নিং অ্যালগরিদম যা পরিবেশের গতিবিদ্যা সম্পর্কে পূর্ব জ্ঞান ছাড়াই একইসাথে ট্রানজিশন মডেল, রিওয়ার্ড মডেল এবং ভ্যালু মডেল শেখে।
ভ্যালু মডেল
MuZero-তে নিউরাল নেটওয়ার্ক যা ভবিষ্যত স্টেটগুলোর প্রত্যাশিত মান অনুমান করে, প্ল্যানিং প্রক্রিয়াকে সবচেয়ে প্রতিশ্রুতিশীল অ্যাকশনের দিকে নির্দেশনা দেয়।
MCTS (মন্টে কার্লো ট্রি সার্চ)
MuZero-তে ব্যবহৃত ট্রি সার্চ অ্যালগরিদম যা সিমুলেশনে এক্সপ্লয়টেশন এবং এক্সপ্লোরেশনের ভারসাম্য রেখে ভবিষ্যত অ্যাকশন স্পেস কার্যকরভাবে এক্সপ্লোর করে।
প্ল্যানিং
প্রক্রিয়া যার মাধ্যমে MuZero তার শেখা মডেল ব্যবহার করে বিভিন্ন অ্যাকশন সিকোয়েন্স সিমুলেট এবং মূল্যায়ন করে, সর্বোত্তম অ্যাকশন নির্বাচনের পূর্বে।
AlphaZero
MuZero-এর পূর্বসূরী অ্যালগরিদম যার জন্য গেমের নিয়ম সম্পর্কে জ্ঞান প্রয়োজন ছিল, বিপরীতে MuZero যা পরিবেশের মডেল গতিশীলভাবে শেখে।
সেলফ-প্লে
প্রশিক্ষণ পদ্ধতি যেখানে MuZero নিজের বিরুদ্ধে খেলে লার্নিং ডেটা জেনারেট করে, মানব হস্তক্ষেপ ছাড়াই ধারাবাহিক উন্নতি সম্ভব করে।
রিপ্লে বাফার
ডেটা স্ট্রাকচার যা পূর্বের অভিজ্ঞতা সংরক্ষণ করে, MuZero কার্যকরী এবং স্থিতিশীলভাবে তার নেটওয়ার্ক প্রশিক্ষণের জন্য পুনরায় ব্যবহার করে।
প্ল্যানিং-এ জেনারালাইজেশন
MuZero-এর ক্ষমতা তার শেখা মডেল নতুন এবং প্রশিক্ষণকালে দেখা যায়নি এমন পরিস্থিতিতে প্রয়োগ করার, যা উল্লেখযোগ্য রোবাস্টনেস প্রদর্শন করে।
ভ্যালু নেটওয়ার্ক
একটি নিউরাল নেটওয়ার্ক যা একটি প্রদত্ত অবস্থার গুণমান মূল্যায়ন করে সেই অবস্থা থেকে প্রত্যাশিত ভবিষ্যত পুরস্কারের যোগফল ভবিষ্যদ্বাণী করার মাধ্যমে।
পলিসি নেটওয়ার্ক
MuZero-এর একটি উপাদান যা সম্ভাব্য ক্রিয়াগুলির উপর সম্ভাব্যতা বন্টন প্রস্তাব করে, MCTS অনুসন্ধানের সময় অনুসন্ধানকে নির্দেশনা প্রদান করে।
বুটস্ট্র্যাপ
একটি কৌশল যেখানে MuZero পুনরাবৃত্তিমূলকভাবে নিজেকে উন্নত করতে তার নিজস্ব ভবিষ্যদ্বাণী ব্যবহার করে, বাহ্যিক তত্ত্বাবধান ছাড়াই স্ব-উন্নয়নের একটি চক্র তৈরি করে।
ইম্যাজিনেশন লার্নিং
প্রক্রিয়া যার মাধ্যমে MuZero বাস্তব মিথস্ক্রিয়া থেকে নয় বরং অভ্যন্তরীণ সিমুলেশন থেকে শেখে, যা এটিকে রাজ্যের স্থান কার্যকরভাবে অন্বেষণ করতে দেয়।
সার্চ পলিসি
MuZero দ্বারা ব্যবহৃত কৌশল যা MCTS অনুসন্ধানের সময় কোন ক্রিয়াগুলি অন্বেষণ করতে হবে তা নির্বাচন করতে ব্যবহৃত হয়, অন্বেষণ এবং ব্যবহারের মধ্যে ভারসাম্য অপ্টিমাইজ করে।