এআই গ্লসারি
কৃত্রিম বুদ্ধিমত্তার সম্পূর্ণ অভিধান
ব্যান্ডিট অ্যালগরিদম
অনলাইন শিক্ষার অ্যালগরিদমের একটি পরিবার যেখানে এজেন্টকে অনিশ্চিত পুরস্কার সহ ক্রমান্বয়ে ক্রিয়া নির্বাচন করতে হয় যাতে ক্রমবর্ধমান লাভ সর্বাধিক করা যায়।
ফলো দ্য লিডার (এফটিএল)
অনলাইন অপ্টিমাইজেশনের একটি কৌশল যেখানে অ্যালগরিদম প্রতিটি ধাপে সেই ক্রিয়া বেছে নেয় যা পূর্বে পর্যবেক্ষণ করা ডেটার উপর সর্বোত্তম হতো।
ফলো দ্য রেগুলারাইজড লিডার (এফটিআরএল)
এফটিএল-এর একটি বৈকল্পিক যা ক্রমান্বয়ে সিদ্ধান্ত স্থিতিশীল করতে এবং প্রতিকূল পরিবেশে আরও ভালো রিগ্রেট সীমা নিশ্চিত করতে নিয়মিতকরণ অন্তর্ভুক্ত করে।
অনলাইন গ্রেডিয়েন্ট ডিসেন্ট
একটি অপ্টিমাইজেশন অ্যালগরিদম যা প্রতিটি নতুন পর্যবেক্ষণে গণনা করা ক্ষতি ফাংশনের গ্রেডিয়েন্টের বিপরীত দিকে মডেলের পরামিতি আপডেট করে।
মাল্টিপ্লিকেটিভ ওয়েট আপডেট
অনলাইন অপ্টিমাইজেশনের একটি পদ্ধতি যা বিশেষজ্ঞদের পূর্বের কর্মক্ষমতার ভিত্তিতে তাদের দেওয়া ওজন সূচকীয়ভাবে সামঞ্জস্য করে তাদের পূর্বাভাস একত্রিত করার জন্য।
এক্সপার্ট অ্যাডভাইস
অনলাইন শিক্ষার একটি কাঠামো যেখানে অ্যালগরিদমকে সেরা বিশেষজ্ঞের তুলনায় রিগ্রেট কমানোর জন্য একাধিক বিশেষজ্ঞের সুপারিশ সমন্বয় করতে হয়।
অনলাইন কনভেক্স অপ্টিমাইজেশন
গাণিতিক তত্ত্ব যা উত্তল ফাংশনের ক্রমান্বয়ে অপ্টিমাইজেশন অধ্যয়ন করে যেখানে ক্ষতি ফাংশন সময়ের সাথে সাথে ধীরে ধীরে প্রকাশিত হয়।
অ্যাডভারসারিয়াল অনলাইন লার্নিং
অনলাইন শিক্ষার একটি দৃশ্যকল্প যেখানে ডেটা একটি সম্ভাব্য দূষিত প্রতিপক্ষ দ্বারা তৈরি হয় যা অ্যালগরিদমের রিগ্রেট সর্বাধিক করতে চায়।
এক্সপ্লোরেশন-এক্সপ্লয়টেশন ট্রেড-অফ
অনলাইন লার্নিংয়ে মৌলিক দ্বিধা: নতুন অ্যাকশন এক্সপ্লোর করে তাদের রিওয়ার্ড আবিষ্কার করা এবং পরিচিত পারফর্মিং অ্যাকশনগুলো এক্সপ্লয়ট করার মধ্যে ভারসাম্য বজায় রাখা।
অনলাইন মিরর ডিসেন্ট
ব্রেগম্যান ফাংশন ব্যবহার করে গ্রেডিয়েন্ট ডিসেন্টের সাধারণীকরণ, যা কনস্ট্রেইন্ড স্পেসে আপডেট প্রজেক্ট করার জন্য সুপিরিয়র ফ্লেক্সিবিলিটি প্রদান করে।
আংশিক তথ্য নিয়ে শেখা
একটি প্যারাডাইম যেখানে অ্যালগরিদম শুধুমাত্র নির্বাচিত অ্যাকশন (ব্যান্ডিট) সম্পর্কে তথ্য পায়, সমস্ত সম্ভাব্য অ্যাকশন (ফুল ইনফরমেশন) সম্পর্কে নয়।
অ্যাডাপ্টিভ লার্নিং রেট
একটি মেকানিজম যা নন-স্টেশনারি পরিবেশে কনভারজেন্স অপ্টিমাইজ করার জন্য লস ল্যান্ডস্কেপের লোকাল প্রপার্টির উপর ভিত্তি করে ডাইনামিক্যালি লার্নিং রেট সামঞ্জস্য করে।
হেজ অ্যালগরিদম
এক্সপার্ট অ্যাগ্রিগেশন অ্যালগরিদম যা সেরা এক্সপার্টের সাপেক্ষে লগারিদমিক রিগ্রেট বাউন্ড নিশ্চিত করার জন্য ওয়েটের মাল্টিপ্লিকেটিভ আপডেট ব্যবহার করে।
রিগ্রেট বাউন্ড
একটি তাত্ত্বিক উপরের সীমা যা একটি অ্যালগরিদমের ক্রমবর্ধমান রিগ্রেটের উপর থাকতে পারে, অনলাইন অপ্টিমাইজেশন পদ্ধতিগুলোর পারফরম্যান্স তুলনা এবং গ্যারান্টি দেওয়ার অনুমতি দেয়।
স্টোকাস্টিক অনলাইন লার্নিং
লার্নিং ফ্রেমওয়ার্ক যেখানে ডেটা একটি ফিক্সড এবং অজানা প্রোবাবিলিটি ডিস্ট্রিবিউশন অনুসরণ করে, ওয়ার্স্ট কেসের পরিবর্তে এক্সপেক্টেশনে পারফরম্যান্স গ্যারান্টি দেওয়ার অনুমতি দেয়।