এআই গ্লসারি
কৃত্রিম বুদ্ধিমত্তার সম্পূর্ণ অভিধান
পজিশন-ওয়াইজ ফিড-ফরওয়ার্ড নেটওয়ার্ক
ট্রান্সফরমার আর্কিটেকচারে সিকোয়েন্সের প্রতিটি অবস্থানে স্বাধীনভাবে প্রয়োগ করা নিউরাল নেটওয়ার্ক, অ্যাটেনশন মেকানিজমের পরে নন-লিনিয়ার ট্রান্সফরমেশন সম্পাদন করে।
জিইএলইউ অ্যাক্টিভেশন
ট্রান্সফরমারগুলির এফএফএন-এ ব্যবহৃত গাউসিয়ান এরর লিনিয়ার ইউনিট অ্যাক্টিভেশন ফাংশন, স্টোকাস্টিক রেগুলারাইজেশনের জন্য ড্রপআউট এবং রিলিউর বৈশিষ্ট্যগুলি একত্রিত করে।
দুই-স্তর এমএলপি
ট্রান্সফরমারগুলির এফএফএন-এর স্ট্যান্ডার্ড মাল্টিলেয়ার আর্কিটেকচার যা তাদের মধ্যে একটি নন-লিনিয়ার অ্যাক্টিভেশন ফাংশন সহ দুটি লিনিয়ার ট্রান্সফরমেশন নিয়ে গঠিত।
হিডেন ডাইমেনশন এক্সপ্যানশন
দ্বিতীয় স্তরে হ্রাস করার আগে এফএফএন-এর প্রথম স্তরে মাত্রিকতার সম্প্রসারণ (সাধারণত মডেলের মাত্রার ৪x), আরও অভিব্যক্তিমূলক ক্ষমতা অনুমতি দেয়।
ফিড-ফরওয়ার্ড ডাইমেনশন
ট্রান্সফরমারগুলির এফএফএন-এর ইন্টারমিডিয়েট ডাইমেনশন, সাধারণত উপস্থাপনা ক্ষমতা বাড়ানোর জন্য মডেলের মাত্রার চেয়ে চার গুণ বেশি।
পজিশন-ইন্ডিপেন্ডেন্ট প্রসেসিং
এফএফএন-এর মৌলিক বৈশিষ্ট্য যা সমস্ত অবস্থানে একই ওজন প্রয়োগ করে, অ্যাটেনশন মেকানিজমের বিপরীতে যা অবস্থান-নির্ভরশীল।
সুইশ অ্যাক্টিভেশন
এফএফএন-এ জিইএলইউ-এর বিকল্প অ্যাক্টিভেশন ফাংশন, x * sigmoid(βx) হিসাবে সংজ্ঞায়িত, আরও ভাল ডিফারেনশিয়াবিলিটি সহ তুলনীয় পারফরম্যান্স প্রদান করে।
জিএলইউ ভেরিয়েন্টস
গেটেড লিনিয়ার ইউনিট এবং তাদের ভেরিয়েন্টস (জিইজিএলইউ, সুইজিএলইউ) স্ট্যান্ডার্ড এফএফএন-এর বিকল্প হিসাবে ব্যবহৃত, তথ্য প্রবাহের নির্বাচনী নিয়ন্ত্রণের জন্য গেটিং মেকানিজম প্রবর্তন করে।
Feed-Forward Sublayer
Composant individuel du bloc Transformer contenant le FFN, incluant connections résiduelles et normalisation de couche pour stabiliser l'entraînement.
Linear Transformation Matrices
Poids W1 et W2 du FFN transformant respectivement vers la dimension étendue et revenant à la dimension originale du modèle.
FFN Dropout
Mécanisme de régularisation appliqué après l'activation dans les FFN des Transformers, désactivant aléatoirement des neurones pour prévenir le surapprentissage.
Inner Layer Normalization
Application de la normalisation de couche avant ou après le FFN dans l'architecture Transformer, avec des variantes pre-norm et post-norm affectant la stabilité de l'entraînement.
Mixture of Experts FFN
Extension des FFN standards utilisant plusieurs experts FFN sélectivement activés par un réseau de routage, permettant une augmentation de capacité sans augmentation computationnelle proportionnelle.
ReLU-based FFN
Variante de FFN utilisant ReLU comme fonction d'activation, plus simple mais moins performante que GELU pour la plupart des applications de Transformers.
Feed-Forward Projection
Opération de projection linéaire dans les FFN transformant les représentations entre espaces de dimensionnalités différentes pour capturer des relations complexes.
Adaptive FFN
Architecture FFN avancée ajustant dynamiquement ses paramètres en fonction du contexte d'entrée, améliorant la flexibilité pour des tâches spécifiques.