ডাইনামিক প্রোগ্রামিং - কৃত্রিম বুদ্ধিমত্তা শব্দাবলী

📖

শব্দ

মানের পুনরাবৃত্তি

গতিশীল প্রোগ্রামিং অ্যালগরিদম যা অভিসারী না হওয়া পর্যন্ত বেলম্যান অপারেটর প্রয়োগ করে সর্বোত্তম মান ফাংশন পুনরাবৃত্তিমূলকভাবে গণনা করে। এই পদ্ধতিটি মধ্যবর্তী নীতিসমূহের স্পষ্ট মূল্যায়ন ছাড়াই সর্বোত্তম নীতি নির্ধারণ করে।

📖

শব্দ

নীতির পুনরাবৃত্তি

দুটি পর্যায়ে গঠিত অ্যালগরিদম: মান ফাংশন গণনা করার জন্য নীতি মূল্যায়ন, তারপর এই মানের সাপেক্ষে প্রতিটি অবস্থাকে লোভী করে নীতি উন্নতি। সসীম এমডিপিগুলির জন্য সসীম সংখ্যক পুনরাবৃত্তিতে অভিসৃতি নিশ্চিত।

📖

শব্দ

মার্কভ সিদ্ধান্ত প্রক্রিয়া

মার্কভ বৈশিষ্ট্যসহ স্টোকাস্টিক পরিবেশে অনুক্রমিক সিদ্ধান্ত গ্রহণ মডেল করার জন্য গাণিতিক কাঠামো। একটি এমডিপি রাজ্যসমূহ, কর্মসমূহ, একটি রূপান্তর ফাংশন এবং একটি পুরস্কার ফাংশন দ্বারা সংজ্ঞায়িত।

📖

শব্দ

মান ফাংশন

একটি নির্দিষ্ট নীতি অনুসরণ করে একটি প্রদত্ত অবস্থা থেকে প্রত্যাশিত ক্রমবর্ধমান পুরস্কার অনুমান করে এমন ফাংশন। এটি একটি নির্দিষ্ট অবস্থায় থাকার দীর্ঘমেয়াদী উপযোগিতা উপস্থাপন করে।

📖

শব্দ

কর্ম মান ফাংশন

একটি নির্দিষ্ট অবস্থায় একটি নির্দিষ্ট কর্ম নেওয়ার পরে একটি নীতি অনুসরণ করে প্রত্যাশিত ক্রমবর্ধমান পুরস্কার মূল্যায়ন করে এমন ফাংশন। এটি প্রতিটি অবস্থায় কর্মের গুণমান সরাসরি তুলনা করতে দেয়।

📖

শব্দ

বেলম্যান সমীকরণ

মৌলিক পুনরাবৃত্তিমূলক সমীকরণ যা একটি অবস্থার মান এবং পরবর্তী অবস্থার মানগুলির মধ্যে সম্পর্ক প্রকাশ করে। এটি সর্বোত্তমতার নীতি প্রাতিষ্ঠানিক রূপ দেয় এবং গতিশীল প্রোগ্রামিং অ্যালগরিদমের ভিত্তি হিসাবে কাজ করে।

📖

শব্দ

সর্বোত্তমতার নীতি

বেলম্যান দ্বারা উল্লিখিত ধারণা যা বলে যে একটি সর্বোত্তম নীতির এমন বৈশিষ্ট্য রয়েছে যে, প্রারম্ভিক অবস্থা যাই হোক না কেন, অবশিষ্ট সিদ্ধান্তগুলি পরবর্তী অবস্থা থেকে শুরু হওয়া উপ-সমস্যার জন্য একটি সর্বোত্তম নীতি গঠন করে।

📖

শব্দ

ছাড় ফ্যাক্টর

গামা (γ) পরামিতি [0,1] ব্যবধানে যা তাৎক্ষণিক পুরস্কারের তুলনায় ভবিষ্যত পুরস্কারের গুরুত্ব ওজন করে। ১-এর কাছাকাছি একটি ফ্যাক্টর দীর্ঘমেয়াদী পরিকল্পনাকে পক্ষপাতিত্ব করে যখন ০-এর কাছাকাছি একটি ফ্যাক্টর তাৎক্ষণিক পুরস্কারকে অগ্রাধিকার দেয়।

📖

শব্দ

নীতিমালা মূল্যায়ন

বেলম্যানের রৈখিক সমীকরণ পদ্ধতি সমাধান করে একটি প্রদত্ত নীতিমালার জন্য মান ফাংশন গণনা করার পুনরাবৃত্তিমূলক প্রক্রিয়া। নীতিমালা পুনরাবৃত্তি অ্যালগরিদমে এই ধাপটি অপরিহার্য।

📖

শব্দ

নীতিমালা উন্নয়ন

বর্তমান নীতিমালার ভিত্তিতে কর্ম মান ফাংশনকে সর্বাধিক করে এমন কর্ম নির্বাচন করে প্রতিটি অবস্থার জন্য একটি নীতিমালা হালনাগাদ করার ধাপ। এই লোভী পদ্ধতি নিশ্চিত করে যে নতুন নীতিমালা পূর্ববর্তী নীতিমালার কমপক্ষে সমান ভালো হবে।

📖

শব্দ

রূপান্তর ম্যাট্রিক্স

একটি MDP-তে প্রতিটি সম্ভাব্য কর্মের জন্য অবস্থার মধ্যে রূপান্তরের সম্ভাব্যতা উপস্থাপনকারী গাণিতিক কাঠামো। এটি পরিবেশের স্টোকাস্টিক গতিবিদ্যা এনকোড করে এবং গতিশীল প্রোগ্রামিং গণনার জন্য অপরিহার্য।

📖

শব্দ

সময়সীমা

সিদ্ধান্ত গ্রহণ প্রসারিত হওয়া ধাপের সংখ্যা, যা সসীম (নির্দিষ্ট দৈর্ঘ্যের পর্ব) বা অসীম (অবিচ্ছিন্ন প্রক্রিয়া) হতে পারে। গতিশীল প্রোগ্রামিং বিবেচনা করা সময়সীমার ধরন অনুযায়ী ভিন্নভাবে অভিযোজিত হয়।

📖

শব্দ

বেলম্যান অপারেটর

বেলম্যান সমীকরণ প্রয়োগ করে একটি মান ফাংশনকে নতুন অনুমানে রূপান্তরিত করার গাণিতিক অপারেটর। এটি একটি সংকোচন যা সর্বোত্তম মান ফাংশনের দিকে অভিসৃতি নিশ্চিত করে।

📖

শব্দ

স্থির নীতিমালা

এমন একটি নীতিমালা যা শুধুমাত্র বর্তমান অবস্থার উপর নির্ভর করে, সময় বা পরিদর্শন করা অবস্থার ইতিহাসের উপর নয়। MDP-তে, অসীম সময়সীমার সমস্যার জন্য সর্বদা একটি সর্বোত্তম স্থির নীতিমালা বিদ্যমান।

📖

শব্দ

সঠিক সমাধান

গতিশীল প্রোগ্রামিংয়ের একটি পদ্ধতি যা আনুমানিক পদ্ধতির বিপরীতে একটি MDP-এর গাণিতিকভাবে সর্বোত্তম সমাধান খুঁজে পাওয়ার নিশ্চয়তা দেয়। এটির জন্য পরিবেশ মডেলের সম্পূর্ণ জ্ঞান প্রয়োজন।

📖

শব্দ

ছেদন ত্রুটি

গতিশীল প্রোগ্রামিং অ্যালগরিদমে অকালে পুনরাবৃত্তি বন্ধ করার কারণে সঠিক মান এবং অনুমান করা মানের মধ্যে পার্থক্য। এই ত্রুটি অতিরিক্ত পুনরাবৃত্তির সংখ্যা বৃদ্ধির সাথে সূচকীয়ভাবে হ্রাস পায়।

এআই গ্লসারি

মানের পুনরাবৃত্তি

নীতির পুনরাবৃত্তি

মার্কভ সিদ্ধান্ত প্রক্রিয়া

মান ফাংশন

কর্ম মান ফাংশন

বেলম্যান সমীকরণ

সর্বোত্তমতার নীতি

ছাড় ফ্যাক্টর

নীতিমালা মূল্যায়ন

নীতিমালা উন্নয়ন

রূপান্তর ম্যাট্রিক্স

সময়সীমা

বেলম্যান অপারেটর

স্থির নীতিমালা

সঠিক সমাধান

ছেদন ত্রুটি

কোন ফলাফল পাওয়া যায়নি