মূল্যায়ন এবং মেট্রিক্স - কৃত্রিম বুদ্ধিমত্তা শব্দাবলী

📖

শব্দ

BLEU (বাইলিংগুয়াল ইভ্যালুয়েশন আন্ডারস্টাডি)

স্বয়ংক্রিয় অনুবাদের মান মূল্যায়নের জন্য একটি স্বয়ংক্রিয় মেট্রিক যা মানুষের তৈরি এক বা একাধিক রেফারেন্সের সাথে জেনারেট করা টেক্সটের এন-গ্রাম প্রিসিশন তুলনা করে। এটি মডেলের আউটপুট এবং রেফারেন্সের মধ্যে টেক্সট সেগমেন্টের ওভারল্যাপ পরিমাপ করে।

📖

শব্দ

ROUGE (রিকল-ওরিয়েন্টেড আন্ডারস্টাডি ফর জিস্টিং ইভ্যালুয়েশন)

সারমর্ম মূল্যায়নের জন্য ব্যবহৃত মেট্রিকের একটি সেট যা রেফারেন্স সারমর্মের সাথে এন-গ্রামের রিকল (রিকল) উপর ফোকাস করে। ROUGE-N, ROUGE-L এবং ROUGE-S এর সবচেয়ে সাধারণ বৈচিত্র্য।

📖

শব্দ

সঙ্গতি স্কোর

একটি গুণগত সূচক যা দীর্ঘ পরিসরে জেনারেট করা টেক্সটের শব্দার্থিক এবং যৌক্তিক সঙ্গতি পরিমাপ করে, বাক্য এবং অনুচ্ছেদগুলি যুক্তিসঙ্গতভাবে একে অপরের সাথে সংযুক্ত কিনা তা মূল্যায়ন করে। এটি প্রায়শই বাক্য এম্বেডিং মডেল বা বিশেষভাবে প্রশিক্ষিত ক্লাসিফায়ারগুলির মাধ্যমে গণনা করা হয়।

📖

শব্দ

মানুষের মূল্যায়ন

একটি রেফারেন্স পদ্ধতি যেখানে মানুষের অ্যানোটেটররা পূর্বনির্ধারিত মানদণ্ড যেমন প্রাসঙ্গিকতা, সাবলীলতা বা সম্পূর্ণতা অনুযায়ী একটি LLM-এর আউটপুটের মান বিচার করে। এটি একটি গ্রাউন্ড ট্রুথ পরিমাপ প্রদান করে কিন্তু ব্যয়বহুল এবং স্কেল করা কঠিন।

📖

শব্দ

বিষাক্ততা

একটি মেট্রিক যা একটি মডেল দ্বারা আপত্তিকর, বিদ্বেষপূর্ণ, বৈষম্যমূলক বা ক্ষতিকর বিষয়বস্তু তৈরি হওয়ার সম্ভাবনা মূল্যায়ন করে। এটি সাধারণত বিশেষায়িত ক্লাসিফায়ার দ্বারা পরিমাপ করা হয় যা বিষাক্ততার জন্য টীকাযুক্ত টেক্সট কর্পাসে প্রশিক্ষিত।

📖

শব্দ

হ্যালুসিনেশন

একটি ঘটনা যেখানে একটি LLM সত্য হিসাবে উপস্থাপনা করে এমন তথ্যগতভাবে ভুল, অযৌক্তিক বা উদ্ভাবিত তথ্য তৈরি করে। হ্যালুসিনেশন মূল্যায়নে পরিচিত সত্যের উৎসের সাথে জেনারেট করা বিষয়বস্তুর বিশ্বস্ততা যাচাই করা জড়িত।

📖

শব্দ

পক্ষপাত

নির্দিষ্ট জনসংখ্যার গোষ্ঠীর প্রতি ক্ষতিকর বা স্টেরিওটাইপড ফলাফল তৈরি করার জন্য একটি মডেলের প্রবণতার পরিমাপ। পক্ষপাত মূল্যায়ন লিঙ্গ, জাতি বা অন্যান্য সংবেদনশীল বৈশিষ্ট্যের সাথে সম্পর্কিত পক্ষপাত সনাক্ত করতে আউটপুট বিশ্লেষণ করে।

📖

শব্দ

বিশ্বস্ততা মেট্রিক

একটি সূচক যা মূল্যায়ন করে যে একটি LLM দ্বারা উত্পাদিত বিষয়বস্তু, বিশেষ করে প্রশ্ন-উত্তর বা সারসংক্ষেপ সিস্টেমে, প্রদত্ত উৎস প্রসঙ্গ বা নথির সাথে কতটা বিশ্বস্ত এবং সামঞ্জস্যপূর্ণ থাকে। নিম্ন বিশ্বস্ততা বিচ্যুতি বা উদ্ভাবন নির্দেশ করে।

📖

শব্দ

বেঞ্চমার্ক এমএমএলইউ (ম্যাসিভ মাল্টিটাস্ক ল্যাঙ্গুয়েজ আন্ডারস্ট্যান্ডিং)

একটি সম্পূর্ণ বেঞ্চমার্ক যা ৫৭টি বিষয়ে একটি এলএলএমের জ্ঞান ও বোধগম্যতা পরিমাপ করার জন্য তৈরি, প্রাথমিক গণিত থেকে শুরু করে মার্কিন আইন ও ইতিহাস পর্যন্ত। এটি মাল্টিপল চয়েস প্রশ্নের উত্তর দিতে মডেলের দক্ষতা মূল্যায়ন করে।

📖

শব্দ

সহায়ক উত্তর স্কোর (হেল্পফুলনেস স্কোর)

একটি গুণগত মেট্রিক যা মূল্যায়ন করে যে একটি এলএলএম দ্বারা উৎপন্ন উত্তর কতটা সহায়ক, প্রাসঙ্গিক এবং ব্যবহারকারীর প্রশ্ন বা সমস্যার সমাধান করে। এই স্কোর প্রায়শই মানুষের মূল্যায়ন বা রিওয়ার্ড মডেলের মাধ্যমে প্রাপ্ত হয়।

📖

শব্দ

ফিউ-শট মূল্যায়ন

একটি মূল্যায়ন কৌশল যেখানে মডেলকে টার্গেট টাস্কের খুব কম সংখ্যক উদাহরণ (সাধারণত ১ থেকে ৫টি) প্রম্পটের মধ্যে উপস্থাপন করা হয়, যাতে এর বোধগম্যতা ও পারফরম্যান্স নির্দেশিত হয়। এটি মডেলের দ্রুত অভিযোজন ক্ষমতা মূল্যায়ন করে।

📖

শব্দ

অ্যালাইনমেন্ট

একটি প্রক্রিয়া ও মেট্রিক যা নিশ্চিত করে যে একটি এলএলএমের আচরণ মানুষের উদ্দেশ্য, নৈতিক মূল্যবোধ এবং প্রদত্ত নির্দেশাবলীর সাথে সামঞ্জস্যপূর্ণ। অ্যালাইনমেন্ট মূল্যায়ন যাচাই করে যে মডেলটি সহায়ক, নিরীহ এবং সৎ কিনা (এইচএইচএইচ ফ্রেমওয়ার্ক)।

📖

শব্দ

বৈচিত্র্য মেট্রিক

একটি সূচক যা একটি এলএলএম দ্বারা উৎপন্ন টেক্সটে শব্দভাণ্ডার বা থিমের বৈচিত্র্য ও পরিসর পরিমাপ করে, যাতে পুনরাবৃত্তি ও সাধারণ উত্তর এড়ানো যায়। এটি অনন্য টাইপের সাথে মোট টোকেনের অনুপাত (টিটিআর) বা বাক্যগুলির মধ্যে শব্দার্থিক সাদৃশ্য দ্বারা গণনা করা যেতে পারে।

📖

শব্দ

ক্রস-রেফারেন্স স্কোর

একটি মেট্রিক যা একটি এলএলএমের সামঞ্জস্য মূল্যায়ন করতে ব্যবহৃত হয়, একই প্রশ্নের একাধিক উত্তর তৈরি করে এবং তাদের শব্দার্থিক বা তথ্যগত সাদৃশ্য পরিমাপ করে। উচ্চ স্কোর নির্দেশ করে উচ্চ নির্ভরযোগ্যতা এবং বৈপরীত্যের কম সম্ভাবনা।

📖

শব্দ

ট্রুথফুলকিউএ স্কেল

একটি বিশেষায়িত বেঞ্চমার্ক যা একটি এলএলএমের ট্রেনিং টেক্সটে পাওয়া সাধারণ মিথ্যা অনুকরণ করার প্রবণতা পরিমাপ করার জন্য তৈরি, এর সত্যিকারের সত্য উত্তর তৈরি করার ক্ষমতা মূল্যায়ন করে। এটি শুধুমাত্র উপযোগিতা বা সামঞ্জস্যের পরিবর্তে সত্যের উপর ফোকাস করে।

📖

শব্দ

রোবাস্টনেস মেট্রিক

ইনপুটে ছোটখাটো পরিবর্তনের (যেমন টাইপো, প্যারাফ্রেজ বা নয়েজ) মুখোমুখি হয়ে একটি এলএলএমের পারফরম্যান্সের স্থিতিশীলতার মূল্যায়ন। উচ্চ রোবাস্টনেস মেট্রিক মানে হল যে আউটপুটের গুণমান ব্যাঘাতের সাথে উল্লেখযোগ্যভাবে হ্রাস পায় না।

📖

শব্দ

নির্দেশনা অনুসরণ স্কোর (Instruction Following Score)

একটি মেট্রিক যা জটিল ও বহু-ধাপী নির্দেশনা বোঝার এবং সঠিকভাবে কার্যকর করার জন্য একটি LLM-এর ক্ষমতা মূল্যায়ন করে, যা প্রম্পটে প্রদান করা হয়। এই স্কোর এজেন্ট অ্যাপ্লিকেশন এবং শর্তাধীন জেনারেশন টাস্কগুলির জন্য অত্যন্ত গুরুত্বপূর্ণ।

এআই গ্লসারি

BLEU (বাইলিংগুয়াল ইভ্যালুয়েশন আন্ডারস্টাডি)

ROUGE (রিকল-ওরিয়েন্টেড আন্ডারস্টাডি ফর জিস্টিং ইভ্যালুয়েশন)

সঙ্গতি স্কোর

মানুষের মূল্যায়ন

বিষাক্ততা

হ্যালুসিনেশন

পক্ষপাত

বিশ্বস্ততা মেট্রিক

বেঞ্চমার্ক এমএমএলইউ (ম্যাসিভ মাল্টিটাস্ক ল্যাঙ্গুয়েজ আন্ডারস্ট্যান্ডিং)

সহায়ক উত্তর স্কোর (হেল্পফুলনেস স্কোর)

ফিউ-শট মূল্যায়ন

অ্যালাইনমেন্ট

বৈচিত্র্য মেট্রিক

ক্রস-রেফারেন্স স্কোর

ট্রুথফুলকিউএ স্কেল

রোবাস্টনেস মেট্রিক

নির্দেশনা অনুসরণ স্কোর (Instruction Following Score)

কোন ফলাফল পাওয়া যায়নি