🏠 হোম
বেঞ্চমার্ক
📊 সমস্ত বেঞ্চমার্ক 🦖 ডাইনোসর v1 🦖 ডাইনোসর v2 ✅ টু-ডু লিস্ট অ্যাপস 🎨 সৃজনশীল ফ্রি পেজ 🎯 FSACB - চূড়ান্ত শোকেস 🌍 অনুবাদ বেঞ্চমার্ক
মডেল
🏆 সেরা ১০টি মডেল 🆓 ফ্রি মডেল 📋 সমস্ত মডেল ⚙️ কিলো কোড
রিসোর্স
💬 প্রম্পট লাইব্রেরি 📖 এআই গ্লসারি 🔗 দরকারী লিঙ্ক

এআই গ্লসারি

কৃত্রিম বুদ্ধিমত্তার সম্পূর্ণ অভিধান

238
বিভাগ
3,112
উপ-বিভাগ
36,890
শব্দ
📖
শব্দ

অডিও স্পেক্ট্রোগ্রাম ট্রান্সফরমার (AST)

একটি ট্রান্সফরমার আর্কিটেকচার যা শ্রেণীবিভাগের কাজের জন্য অডিও স্পেক্ট্রোগ্রামের উপস্থাপনায় সরাসরি মনোযোগের প্রক্রিয়া প্রয়োগ করে, সংকেতকে একটি 2D চিত্র হিসেবে বিবেচনা করে।

📖
শব্দ

কনফরমার

স্বর স্বীকৃতির জন্য একটি হাইব্রিড মডেল আর্কিটেকচার যা অডিও সিকোয়েন্সে স্থানীয় এবং গ্লোবাল উভয় নির্ভরতা ক্যাপচার করতে কনভোলিউশন, স্ব-মনোযোগ এবং ফিড-ফরওয়ার্ড মডিউলগুলিকে একত্রিত করে।

📖
শব্দ

ওয়াভ২ভেক ২.০

কাঁচা অডিও ডেটার উপর প্রি-ট্রেইন করা স্বর স্বীকৃতির জন্য একটি স্ব-তত্ত্বাবধায়িত শিক্ষার ফ্রেমওয়ার্ক, যা কথ্য ভাষার বিচ্ছিন্ন উপস্থাপনা শিখতে ভেক্টর কোয়ান্টাইজেশন ব্যবহার করে।

📖
শব্দ

হিউবার্ট

হায়ারার্কিকাল হিডেন-ইউনিট BERT, একটি স্ব-তত্ত্বাবধায়িত মডেল যা অ্যাকোস্টিক বৈশিষ্ট্যের ক্লাস্টার থেকে লুকানো ইউনিটগুলির পূর্বাভাস দিয়ে শ্রেণিবদ্ধ অডিও উপস্থাপনা শেখে।

📖
শব্দ

জুকবক্স

একটি ট্রান্সফরমার এবং VQ-VAE ভিত্তিক জেনারেটিভ মডেল যা শিল্পী এবং জেনারের মেটাডেটার উপর শর্তযুক্ত করে উচ্চ-ফাইডেলিটি ভয়েস সহ কাঁচা সঙ্গীত তৈরি করতে সক্ষম।

📖
শব্দ

মিউজিক ট্রান্সফরমার

দীর্ঘ সঙ্গীত সিকোয়েন্স মডেলিংয়ের জন্য অপ্টিমাইজড আপেক্ষিক মনোযোগ প্রক্রিয়া সহ একটি ট্রান্সফরমার আর্কিটেকচার, যা কাঠামোগত সামঞ্জস্য সহ সঙ্গীত ট্র্যাক তৈরি করতে সক্ষম।

📖
শব্দ

স্পেকঅগমেন্ট

অডিও মডেলগুলির জন্য একটি নিয়মিতকরণ কৌশল যা সংকেত দুর্নীতির বিরুদ্ধে মডেলের রোবাস্টনেস উন্নত করতে স্পেক্ট্রোগ্রামে (ফ্রিকোয়েন্সি এবং সময়) মাস্কিং রূপান্তর প্রয়োগ করে।

📖
শব্দ

অডিও সিকোয়েন্সে স্ব-মনোযোগ

অ্যাকোস্টিক ভেক্টরের সিকোয়েন্সে স্ব-মনোযোগ প্রক্রিয়ার প্রয়োগ, যা পূর্বাভাসের জন্য অডিও সংকেতের বিভিন্ন অংশের গতিশীল গুরুত্ব ওজন করতে মডেলকে সক্ষম করে।

📖
শব্দ

অডিও টোকেনাইজেশন

একটি অবিচ্ছিন্ন অডিও সিগন্যালকে বিচ্ছিন্ন টোকেনের ক্রমে রূপান্তর করার প্রক্রিয়া, প্রায়শই VQ-VAE এর মাধ্যমে, যাতে এটি টোকেন-ভিত্তিক ট্রান্সফরমার আর্কিটেকচারের সাথে সামঞ্জস্যপূর্ণ হয়।

📖
শব্দ

ক্রস-অ্যাটেনশন অডিও-টেক্সট

একটি অ্যাটেনশন মেকানিজম যেখানে ক্যুয়ারি এক মডালিটি থেকে (যেমন: টেক্সট) এবং কী/ভ্যালু অন্য মডালিটি থেকে (যেমন: অডিও) আসে, যা স্পিচ রিকগনিশন এবং অডিও ন্যারেশন মডেলের জন্য মৌলিক।

📖
শব্দ

পারসিভার আইও অডিও

পারসিভার আইও ভিত্তিক একটি আর্কিটেকচার যা ভেরিয়েবল লেন্থের অডিও সিকোয়েন্স প্রসেস করে সেগুলোকে একটি ফিক্সড সাইজের লেটেন্ট স্পেসে রূপান্তর করার পর প্রেডিকশন জেনারেট করে, ক্লাসিফিকেশন এবং ট্রান্সক্রিপশন টাস্কের জন্য কার্যকর।

📖
শব্দ

স্কুইজ-এন্ড-এক্সসাইটেশন অডিও

অডিও ডেটার জন্য অভিযোজিত একটি চ্যানেল অ্যাটেনশন ব্লক, যা চ্যানেলগুলোর মধ্যে আন্তঃনির্ভরতা মডেলিং করে স্পেক্ট্রোগ্রাম ফিচার ম্যাপের প্রতিক্রিয়া গতিশীলভাবে পুনরায় ক্যালিব্রেট করতে শেখে।

📖
শব্দ

অডিওর জন্য কনভোলিউশনাল ট্রান্সফরমার (সিটিটি)

একটি আর্কিটেকচার যা গ্লোবাল ডিপেন্ডেন্সির জন্য সেলফ-অ্যাটেনশন প্রয়োগ করার আগে স্পেক্ট্রোগ্রামে লোকাল প্যাটার্ন ক্যাপচার করতে ট্রান্সফরমার ব্লকে কনভোলিউশন সংযুক্ত করে।

📖
শব্দ

কনট্রাস্টিভ অডিও ট্রেনিং (সিএলএপি)

একটি মাল্টিমোডাল লার্নিং পদ্ধতি যা অডিও এবং টেক্সচুয়াল রিপ্রেজেন্টেশনগুলো একটি শেয়ার্ড স্পেসে অ্যালাইন করতে কনট্রাস্টিভ লস ব্যবহার করে, জিরো-শট অডিও ক্লাসিফিকেশন সম্ভব করে।

📖
শব্দ

অডিও ট্রান্সফরমারে কজুয়াল ডিলে

একটি আর্কিটেকচারাল কনস্ট্রেইন্ট যেখানে কোনো টাইম স্টেপের অ্যাটেনশন শুধুমাত্র বর্তমান এবং অতীত টাইম স্টেপগুলোর উপর হতে পারে, স্ট্রিমিং এবং রিয়েল-টাইম অডিও জেনারেশন মডেলের জন্য অপরিহার্য।

📖
শব্দ

স্পেক্ট্রোগ্রামের জন্য 2D পজিশনাল এনকোডিং

একটি পজিশনাল এনকোডিং টেকনিক যা স্পেক্ট্রোগ্রাম থেকে এক্সট্রাক্টেড টোকেনগুলোর স্পেশিয়াল ইনফরমেশন (টাইম এবং ফ্রিকোয়েন্সি) এনকোড করে, ট্রান্সফরমারকে অডিও সিগন্যালের 2D স্ট্রাকচার বুঝতে দেয়।

📖
শব্দ

নির্দিষ্ট অডিও টাস্কে ফাইন-টিউনিং

প্রাক-প্রশিক্ষিত অডিও ট্রান্সফরমারকে একটি বৃহৎ ডেটাবেস থেকে নির্দিষ্ট কাজ যেমন শব্দ ইভেন্ট শনাক্তকরণ বা বক্তা শনাক্তকরণে অভিযোজনের প্রক্রিয়া, যেখানে স্তরগুলো হিমায়িত বা নির্বাচনীভাবে পুনঃপ্রশিক্ষণ দেওয়া হয়।

📖
শব্দ

অডিও ভাষা মডেল (অডিওএলএম)

একটি পদ্ধতি যা অডিও জেনারেশনকে ভাষা মডেলিং টাস্ক হিসেবে বিবেচনা করে, ট্রান্সফরমার দিয়ে বিচ্ছিন্ন ধ্বনিগত টোকেন পূর্বাভাসের মাধ্যমে, যেভাবে ভাষা মডেল টেক্সট জেনারেট করে তার অনুরূপ।

🔍

কোন ফলাফল পাওয়া যায়নি