Redes Feed-Forward - Glosario IA

📖

términos

Position-wise Feed-Forward Network

Red neuronal aplicada de manera independiente a cada posición de la secuencia en la arquitectura Transformer, realizando transformaciones no lineales después del mecanismo de atención.

📖

términos

GELU Activation

Función de activación Gaussian Error Linear Unit utilizada en los FFN de los Transformers, combinando propiedades de dropout y de ReLU para una regularización estocástica.

📖

términos

Two-layer MLP

Arquitectura multicapa estándar de los FFN en los Transformers compuesta por dos transformaciones lineales con una función de activación no lineal entre ellas.

📖

términos

Hidden Dimension Expansion

Aumento de la dimensionalidad en la primera capa del FFN (generalmente 4x la dimensión del modelo) antes de la reducción en la segunda capa, permitiendo mayor capacidad expresiva.

📖

términos

Feed-Forward Dimension

Dimensión intermedia del FFN en los Transformers, típicamente cuatro veces superior a la dimensión del modelo para aumentar la capacidad de representación.

📖

términos

Position-independent Processing

Característica fundamental de los FFN que aplica los mismos pesos a todas las posiciones, a diferencia del mecanismo de atención que es dependiente de la posición.

📖

términos

Swish Activation

Función de activación alternativa a GELU en los FFN, definida como x * sigmoid(βx), ofreciendo rendimiento comparable con mejor diferenciabilidad.

📖

términos

GLU Variants

Gated Linear Units y sus variantes (GeGLU, SwiGLU) utilizadas como alternativas a los FFN estándar, introduciendo mecanismos de puerta para un control selectivo del flujo de información.

📖

términos

Feed-Forward Sublayer

Componente individual del bloque Transformer que contiene el FFN, incluyendo conexiones residuales y normalización de capa para estabilizar el entrenamiento.

📖

términos

Linear Transformation Matrices

Pesos W1 y W2 del FFN transformando respectivamente hacia la dimensión extendida y regresando a la dimensión original del modelo.

📖

términos

FFN Dropout

Mecanismo de regularización aplicado después de la activación en los FFN de los Transformers, desactivando aleatoriamente neuronas para prevenir el sobreaprendizaje.

📖

términos

Inner Layer Normalization

Aplicación de la normalización de capa antes o después del FFN en la arquitectura Transformer, con variantes pre-norm y post-norm afectando la estabilidad del entrenamiento.

📖

términos

Mixture of Experts FFN

Extensión de los FFN estándar utilizando múltiples expertos FFN selectivamente activados por una red de enrutamiento, permitiendo un aumento de capacidad sin aumento computacional proporcional.

📖

términos

ReLU-based FFN

Variante de FFN que utiliza ReLU como función de activación, más simple pero menos performante que GELU para la mayoría de las aplicaciones de Transformers.

📖

términos

Feed-Forward Projection

Operación de proyección lineal en los FFN transformando las representaciones entre espacios de dimensionalidades diferentes para capturar relaciones complejas.

📖

términos

Adaptive FFN

Arquitectura FFN avanzada ajustando dinámicamente sus parámetros según el contexto de entrada, mejorando la flexibilidad para tareas específicas.

Glosario IA

Position-wise Feed-Forward Network

GELU Activation

Two-layer MLP

Hidden Dimension Expansion

Feed-Forward Dimension

Position-independent Processing

Swish Activation

GLU Variants

Feed-Forward Sublayer

Linear Transformation Matrices

FFN Dropout

Inner Layer Normalization

Mixture of Experts FFN

ReLU-based FFN

Feed-Forward Projection

Adaptive FFN

No se encontraron resultados