Сети прямого распространения

📖

термины

Position-wise Feed-Forward Network

Нейронная сеть, применяемая независимо к каждой позиции последовательности в архитектуре Трансформера, выполняющая нелинейные преобразования после механизма внимания.

📖

термины

GELU Activation

Функция активации Gaussian Error Linear Unit, используемая в FFN Трансформеров, сочетающая свойства dropout и ReLU для стохастической регуляризации.

📖

термины

Two-layer MLP

Стандартная многослойная архитектура FFN в Трансформерах, состоящая из двух линейных преобразований с нелинейной функцией активации между ними.

📖

термины

Hidden Dimension Expansion

Увеличение размерности в первом слое FFN (обычно в 4 раза больше размерности модели) перед уменьшением во втором слое, что позволяет получить большую выразительную мощность.

📖

термины

Feed-Forward Dimension

Промежуточная размерность FFN в Трансформерах, обычно в четыре раза превышающая размерность модели для увеличения репрезентативной ёмкости.

📖

термины

Position-independent Processing

Фундаментальная особенность FFN, применяющих одинаковые веса ко всем позициям, в отличие от механизма внимания, который зависит от позиции.

📖

термины

Swish Activation

Альтернативная GELU функция активации в FFN, определяемая как x * sigmoid(βx), обеспечивающая сопоставимую производительность с лучшей дифференцируемостью.

📖

термины

GLU Variants

Gated Linear Units и их варианты (GeGLU, SwiGLU), используемые как альтернатива стандартным FFN, вводящие механизмы управления для избирательного контроля потока информации.

📖

термины

Feed-Forward Sublayer

Composant individuel du bloc Transformer contenant le FFN, incluant connections résiduelles et normalisation de couche pour stabiliser l'entraînement.

📖

термины

Linear Transformation Matrices

Poids W1 et W2 du FFN transformant respectivement vers la dimension étendue et revenant à la dimension originale du modèle.

📖

термины

FFN Dropout

Mécanisme de régularisation appliqué après l'activation dans les FFN des Transformers, désactivant aléatoirement des neurones pour prévenir le surapprentissage.

📖

термины

Inner Layer Normalization

Application de la normalisation de couche avant ou après le FFN dans l'architecture Transformer, avec des variantes pre-norm et post-norm affectant la stabilité de l'entraînement.

📖

термины

Mixture of Experts FFN

Extension des FFN standards utilisant plusieurs experts FFN sélectivement activés par un réseau de routage, permettant une augmentation de capacité sans augmentation computationnelle proportionnelle.

📖

термины

ReLU-based FFN

Variante de FFN utilisant ReLU comme fonction d'activation, plus simple mais moins performante que GELU pour la plupart des applications de Transformers.

📖

термины

Feed-Forward Projection

Opération de projection linéaire dans les FFN transformant les représentations entre espaces de dimensionnalités différentes pour capturer des relations complexes.

📖

термины

Adaptive FFN

Architecture FFN avancée ajustant dynamiquement ses paramètres en fonction du contexte d'entrée, améliorant la flexibilité pour des tâches spécifiques.

Глоссарий ИИ

Position-wise Feed-Forward Network

GELU Activation

Two-layer MLP

Hidden Dimension Expansion

Feed-Forward Dimension

Position-independent Processing

Swish Activation

GLU Variants

Feed-Forward Sublayer

Linear Transformation Matrices

FFN Dropout

Inner Layer Normalization

Mixture of Experts FFN

ReLU-based FFN

Feed-Forward Projection

Adaptive FFN

Результаты не найдены