Глоссарий ИИ
Полный словарь искусственного интеллекта
Position-wise Feed-Forward Network
Нейронная сеть, применяемая независимо к каждой позиции последовательности в архитектуре Трансформера, выполняющая нелинейные преобразования после механизма внимания.
GELU Activation
Функция активации Gaussian Error Linear Unit, используемая в FFN Трансформеров, сочетающая свойства dropout и ReLU для стохастической регуляризации.
Two-layer MLP
Стандартная многослойная архитектура FFN в Трансформерах, состоящая из двух линейных преобразований с нелинейной функцией активации между ними.
Hidden Dimension Expansion
Увеличение размерности в первом слое FFN (обычно в 4 раза больше размерности модели) перед уменьшением во втором слое, что позволяет получить большую выразительную мощность.
Feed-Forward Dimension
Промежуточная размерность FFN в Трансформерах, обычно в четыре раза превышающая размерность модели для увеличения репрезентативной ёмкости.
Position-independent Processing
Фундаментальная особенность FFN, применяющих одинаковые веса ко всем позициям, в отличие от механизма внимания, который зависит от позиции.
Swish Activation
Альтернативная GELU функция активации в FFN, определяемая как x * sigmoid(βx), обеспечивающая сопоставимую производительность с лучшей дифференцируемостью.
GLU Variants
Gated Linear Units и их варианты (GeGLU, SwiGLU), используемые как альтернатива стандартным FFN, вводящие механизмы управления для избирательного контроля потока информации.
Feed-Forward Sublayer
Composant individuel du bloc Transformer contenant le FFN, incluant connections résiduelles et normalisation de couche pour stabiliser l'entraînement.
Linear Transformation Matrices
Poids W1 et W2 du FFN transformant respectivement vers la dimension étendue et revenant à la dimension originale du modèle.
FFN Dropout
Mécanisme de régularisation appliqué après l'activation dans les FFN des Transformers, désactivant aléatoirement des neurones pour prévenir le surapprentissage.
Inner Layer Normalization
Application de la normalisation de couche avant ou après le FFN dans l'architecture Transformer, avec des variantes pre-norm et post-norm affectant la stabilité de l'entraînement.
Mixture of Experts FFN
Extension des FFN standards utilisant plusieurs experts FFN sélectivement activés par un réseau de routage, permettant une augmentation de capacité sans augmentation computationnelle proportionnelle.
ReLU-based FFN
Variante de FFN utilisant ReLU comme fonction d'activation, plus simple mais moins performante que GELU pour la plupart des applications de Transformers.
Feed-Forward Projection
Opération de projection linéaire dans les FFN transformant les représentations entre espaces de dimensionnalités différentes pour capturer des relations complexes.
Adaptive FFN
Architecture FFN avancée ajustant dynamiquement ses paramètres en fonction du contexte d'entrée, améliorant la flexibilité pour des tâches spécifiques.