মাল্টি-হেড অ্যাটেনশন
হেড ডাইমেনশন (d_k)
প্রতিটি অ্যাটেনশন হেডে কী এবং ভ্যালুর ভেক্টরের মাত্রা, যা মডেলের মাত্রাকে হেডের সংখ্যা দ্বারা ভাগ করে গণনা করা হয়, প্রতিটি হেডের প্রতিনিধিত্ব ক্ষমতাকে প্রভাবিত করে।
← ফিরে যান