অডিওর জন্য ট্রান্সফরমার - কৃত্রিম বুদ্ধিমত্তা শব্দাবলী

📖

শব্দ

অডিও স্পেক্ট্রোগ্রাম ট্রান্সফরমার (AST)

একটি ট্রান্সফরমার আর্কিটেকচার যা শ্রেণীবিভাগের কাজের জন্য অডিও স্পেক্ট্রোগ্রামের উপস্থাপনায় সরাসরি মনোযোগের প্রক্রিয়া প্রয়োগ করে, সংকেতকে একটি 2D চিত্র হিসেবে বিবেচনা করে।

📖

শব্দ

কনফরমার

স্বর স্বীকৃতির জন্য একটি হাইব্রিড মডেল আর্কিটেকচার যা অডিও সিকোয়েন্সে স্থানীয় এবং গ্লোবাল উভয় নির্ভরতা ক্যাপচার করতে কনভোলিউশন, স্ব-মনোযোগ এবং ফিড-ফরওয়ার্ড মডিউলগুলিকে একত্রিত করে।

📖

শব্দ

ওয়াভ২ভেক ২.০

কাঁচা অডিও ডেটার উপর প্রি-ট্রেইন করা স্বর স্বীকৃতির জন্য একটি স্ব-তত্ত্বাবধায়িত শিক্ষার ফ্রেমওয়ার্ক, যা কথ্য ভাষার বিচ্ছিন্ন উপস্থাপনা শিখতে ভেক্টর কোয়ান্টাইজেশন ব্যবহার করে।

📖

শব্দ

হিউবার্ট

হায়ারার্কিকাল হিডেন-ইউনিট BERT, একটি স্ব-তত্ত্বাবধায়িত মডেল যা অ্যাকোস্টিক বৈশিষ্ট্যের ক্লাস্টার থেকে লুকানো ইউনিটগুলির পূর্বাভাস দিয়ে শ্রেণিবদ্ধ অডিও উপস্থাপনা শেখে।

📖

শব্দ

জুকবক্স

একটি ট্রান্সফরমার এবং VQ-VAE ভিত্তিক জেনারেটিভ মডেল যা শিল্পী এবং জেনারের মেটাডেটার উপর শর্তযুক্ত করে উচ্চ-ফাইডেলিটি ভয়েস সহ কাঁচা সঙ্গীত তৈরি করতে সক্ষম।

📖

শব্দ

মিউজিক ট্রান্সফরমার

দীর্ঘ সঙ্গীত সিকোয়েন্স মডেলিংয়ের জন্য অপ্টিমাইজড আপেক্ষিক মনোযোগ প্রক্রিয়া সহ একটি ট্রান্সফরমার আর্কিটেকচার, যা কাঠামোগত সামঞ্জস্য সহ সঙ্গীত ট্র্যাক তৈরি করতে সক্ষম।

📖

শব্দ

স্পেকঅগমেন্ট

অডিও মডেলগুলির জন্য একটি নিয়মিতকরণ কৌশল যা সংকেত দুর্নীতির বিরুদ্ধে মডেলের রোবাস্টনেস উন্নত করতে স্পেক্ট্রোগ্রামে (ফ্রিকোয়েন্সি এবং সময়) মাস্কিং রূপান্তর প্রয়োগ করে।

📖

শব্দ

অডিও সিকোয়েন্সে স্ব-মনোযোগ

অ্যাকোস্টিক ভেক্টরের সিকোয়েন্সে স্ব-মনোযোগ প্রক্রিয়ার প্রয়োগ, যা পূর্বাভাসের জন্য অডিও সংকেতের বিভিন্ন অংশের গতিশীল গুরুত্ব ওজন করতে মডেলকে সক্ষম করে।

📖

শব্দ

অডিও টোকেনাইজেশন

একটি অবিচ্ছিন্ন অডিও সিগন্যালকে বিচ্ছিন্ন টোকেনের ক্রমে রূপান্তর করার প্রক্রিয়া, প্রায়শই VQ-VAE এর মাধ্যমে, যাতে এটি টোকেন-ভিত্তিক ট্রান্সফরমার আর্কিটেকচারের সাথে সামঞ্জস্যপূর্ণ হয়।

📖

শব্দ

ক্রস-অ্যাটেনশন অডিও-টেক্সট

একটি অ্যাটেনশন মেকানিজম যেখানে ক্যুয়ারি এক মডালিটি থেকে (যেমন: টেক্সট) এবং কী/ভ্যালু অন্য মডালিটি থেকে (যেমন: অডিও) আসে, যা স্পিচ রিকগনিশন এবং অডিও ন্যারেশন মডেলের জন্য মৌলিক।

📖

শব্দ

পারসিভার আইও ভিত্তিক একটি আর্কিটেকচার যা ভেরিয়েবল লেন্থের অডিও সিকোয়েন্স প্রসেস করে সেগুলোকে একটি ফিক্সড সাইজের লেটেন্ট স্পেসে রূপান্তর করার পর প্রেডিকশন জেনারেট করে, ক্লাসিফিকেশন এবং ট্রান্সক্রিপশন টাস্কের জন্য কার্যকর।

📖

শব্দ

স্কুইজ-এন্ড-এক্সসাইটেশন অডিও

অডিও ডেটার জন্য অভিযোজিত একটি চ্যানেল অ্যাটেনশন ব্লক, যা চ্যানেলগুলোর মধ্যে আন্তঃনির্ভরতা মডেলিং করে স্পেক্ট্রোগ্রাম ফিচার ম্যাপের প্রতিক্রিয়া গতিশীলভাবে পুনরায় ক্যালিব্রেট করতে শেখে।

📖

শব্দ

অডিওর জন্য কনভোলিউশনাল ট্রান্সফরমার (সিটিটি)

একটি আর্কিটেকচার যা গ্লোবাল ডিপেন্ডেন্সির জন্য সেলফ-অ্যাটেনশন প্রয়োগ করার আগে স্পেক্ট্রোগ্রামে লোকাল প্যাটার্ন ক্যাপচার করতে ট্রান্সফরমার ব্লকে কনভোলিউশন সংযুক্ত করে।

📖

শব্দ

কনট্রাস্টিভ অডিও ট্রেনিং (সিএলএপি)

একটি মাল্টিমোডাল লার্নিং পদ্ধতি যা অডিও এবং টেক্সচুয়াল রিপ্রেজেন্টেশনগুলো একটি শেয়ার্ড স্পেসে অ্যালাইন করতে কনট্রাস্টিভ লস ব্যবহার করে, জিরো-শট অডিও ক্লাসিফিকেশন সম্ভব করে।

📖

শব্দ

অডিও ট্রান্সফরমারে কজুয়াল ডিলে

একটি আর্কিটেকচারাল কনস্ট্রেইন্ট যেখানে কোনো টাইম স্টেপের অ্যাটেনশন শুধুমাত্র বর্তমান এবং অতীত টাইম স্টেপগুলোর উপর হতে পারে, স্ট্রিমিং এবং রিয়েল-টাইম অডিও জেনারেশন মডেলের জন্য অপরিহার্য।

📖

শব্দ

স্পেক্ট্রোগ্রামের জন্য 2D পজিশনাল এনকোডিং

একটি পজিশনাল এনকোডিং টেকনিক যা স্পেক্ট্রোগ্রাম থেকে এক্সট্রাক্টেড টোকেনগুলোর স্পেশিয়াল ইনফরমেশন (টাইম এবং ফ্রিকোয়েন্সি) এনকোড করে, ট্রান্সফরমারকে অডিও সিগন্যালের 2D স্ট্রাকচার বুঝতে দেয়।

📖

শব্দ

নির্দিষ্ট অডিও টাস্কে ফাইন-টিউনিং

প্রাক-প্রশিক্ষিত অডিও ট্রান্সফরমারকে একটি বৃহৎ ডেটাবেস থেকে নির্দিষ্ট কাজ যেমন শব্দ ইভেন্ট শনাক্তকরণ বা বক্তা শনাক্তকরণে অভিযোজনের প্রক্রিয়া, যেখানে স্তরগুলো হিমায়িত বা নির্বাচনীভাবে পুনঃপ্রশিক্ষণ দেওয়া হয়।

📖

শব্দ

অডিও ভাষা মডেল (অডিওএলএম)

একটি পদ্ধতি যা অডিও জেনারেশনকে ভাষা মডেলিং টাস্ক হিসেবে বিবেচনা করে, ট্রান্সফরমার দিয়ে বিচ্ছিন্ন ধ্বনিগত টোকেন পূর্বাভাসের মাধ্যমে, যেভাবে ভাষা মডেল টেক্সট জেনারেট করে তার অনুরূপ।

এআই গ্লসারি

অডিও স্পেক্ট্রোগ্রাম ট্রান্সফরমার (AST)

কনফরমার

ওয়াভ২ভেক ২.০

হিউবার্ট

জুকবক্স

মিউজিক ট্রান্সফরমার

স্পেকঅগমেন্ট

অডিও সিকোয়েন্সে স্ব-মনোযোগ

অডিও টোকেনাইজেশন

ক্রস-অ্যাটেনশন অডিও-টেক্সট

পারসিভার আইও অডিও

স্কুইজ-এন্ড-এক্সসাইটেশন অডিও

অডিওর জন্য কনভোলিউশনাল ট্রান্সফরমার (সিটিটি)

কনট্রাস্টিভ অডিও ট্রেনিং (সিএলএপি)

অডিও ট্রান্সফরমারে কজুয়াল ডিলে

স্পেক্ট্রোগ্রামের জন্য 2D পজিশনাল এনকোডিং

নির্দিষ্ট অডিও টাস্কে ফাইন-টিউনিং

অডিও ভাষা মডেল (অডিওএলএম)

কোন ফলাফল পাওয়া যায়নি