এআই গ্লসারি
কৃত্রিম বুদ্ধিমত্তার সম্পূর্ণ অভিধান
অডিও ট্রান্সফরমার
অডিও ডেটার টেম্পোরাল বা ফ্রিকোয়েন্সি রিপ্রেজেন্টেশনে অ্যাটেনশন মেকানিজম ব্যবহার করে অডিও সিগন্যাল প্রসেসিংয়ের জন্য অভিযোজিত ট্রান্সফরমার আর্কিটেকচার।
স্পেক্ট্রোগ্রাম ট্রান্সফরমার
স্পেক্ট্রোগ্রামে সরাসরি কাজ করে এমন ট্রান্সফরমারের একটি বৈকল্পিক, যা অডিও ক্লাসিফিকেশনের জন্য এম্বেডিং সিকোয়েন্স হিসেবে প্যাচগুলিতে বিভক্ত করে।
Wav2Vec 2.0
র অ্যাপার্কিটেকচার সহ কোয়ান্টাইজড মাস্কিং ব্যবহার করে কাঁচা ওয়েভফর্মে ভয়েস রিপ্রেজেন্টেশনের জন্য স্ব-তত্ত্বাবধায়িত শিক্ষণ মডেল।
Whisper
স্পিচ রিকগনিশন এবং স্পিচ-টু-টেক্সট ট্রান্সলেশনের জন্য শক্তিশালী ট্রান্সফরমার মডেল, যা 680k ঘন্টার ট্রান্সক্রাইবড অডিও ডেটায় দুর্বল তত্ত্বাবধানে প্রশিক্ষিত।
অডিওএলএম
অ্যাকোস্টিক এবং সেম্যান্টিক ডিসক্রিট রিপ্রেজেন্টেশনে হায়ারার্কিক্যাল ট্রান্সফরমার ব্যবহার করে অডিও জেনারেশনের জন্য ল্যাঙ্গুয়েজ-লাইক মডেল।
এনকোডেক
হাই-ফাইডেলিটি অডিও কম্প্রেশন এবং রিকনস্ট্রাকশনের জন্য রেসিডুয়াল কোয়ান্টাইজেশন সহ ট্রান্সফরমার-ভিত্তিক নিউরাল কোডেক।
VALL-E
3 সেকেন্ডের ভয়েস প্রম্পট থেকে উচ্চ-গুণমানের স্পিচ জেনারেট করার জন্য ট্রান্সফরমার ব্যবহার করে নিউরাল কোডেক ল্যাঙ্গুয়েজ ভয়েস সিন্থেসিস মডেল।
Wav2Vec-U
অনট্রান্সক্রাইবড প্রি-ট্রেইন্ড wav2vec 2.0 মডেল ব্যবহার করে ASR-এর জন্য আনসুপারভাইজড অ্যাপ্রোচ, ইমপ্লিসিট ফোনেটিক অ্যালাইনমেন্ট কাজে লাগায়।
মিউজিকজেন
অডিও টোকেনাইজার ব্যবহার করে সঙ্গীত তৈরির জন্য কন্ডিশনাল ট্রান্সফরমার মডেল, যা টেক্সট বর্ণনা বা সুর দ্বারা নিয়ন্ত্রণযোগ্য।
এমইআরটি
মিউজিক এনভেলপ রিপ্রেজেন্টেশন ট্রান্সফরমার, মাল্টি-স্কেল রিপ্রেজেন্টেশন ব্যবহার করে সঙ্গীত বোঝার জন্য স্ব-তত্ত্বাবধানে প্রাক-প্রশিক্ষিত মডেল।
স্পেকটুভেক
অডিও শ্রেণীবিভাগ এবং পুনরুদ্ধার কাজের জন্য স্পেকট্রোগ্রামকে ভেক্টর এম্বেডিংয়ে রূপান্তরকারী ট্রান্সফরমার আর্কিটেকচার।