Glosario IA
El diccionario completo de la Inteligencia Artificial
Position-wise Feed-Forward Network
Red neuronal aplicada de manera independiente a cada posición de la secuencia en la arquitectura Transformer, realizando transformaciones no lineales después del mecanismo de atención.
GELU Activation
Función de activación Gaussian Error Linear Unit utilizada en los FFN de los Transformers, combinando propiedades de dropout y de ReLU para una regularización estocástica.
Two-layer MLP
Arquitectura multicapa estándar de los FFN en los Transformers compuesta por dos transformaciones lineales con una función de activación no lineal entre ellas.
Hidden Dimension Expansion
Aumento de la dimensionalidad en la primera capa del FFN (generalmente 4x la dimensión del modelo) antes de la reducción en la segunda capa, permitiendo mayor capacidad expresiva.
Feed-Forward Dimension
Dimensión intermedia del FFN en los Transformers, típicamente cuatro veces superior a la dimensión del modelo para aumentar la capacidad de representación.
Position-independent Processing
Característica fundamental de los FFN que aplica los mismos pesos a todas las posiciones, a diferencia del mecanismo de atención que es dependiente de la posición.
Swish Activation
Función de activación alternativa a GELU en los FFN, definida como x * sigmoid(βx), ofreciendo rendimiento comparable con mejor diferenciabilidad.
GLU Variants
Gated Linear Units y sus variantes (GeGLU, SwiGLU) utilizadas como alternativas a los FFN estándar, introduciendo mecanismos de puerta para un control selectivo del flujo de información.
Feed-Forward Sublayer
Componente individual del bloque Transformer que contiene el FFN, incluyendo conexiones residuales y normalización de capa para estabilizar el entrenamiento.
Linear Transformation Matrices
Pesos W1 y W2 del FFN transformando respectivamente hacia la dimensión extendida y regresando a la dimensión original del modelo.
FFN Dropout
Mecanismo de regularización aplicado después de la activación en los FFN de los Transformers, desactivando aleatoriamente neuronas para prevenir el sobreaprendizaje.
Inner Layer Normalization
Aplicación de la normalización de capa antes o después del FFN en la arquitectura Transformer, con variantes pre-norm y post-norm afectando la estabilidad del entrenamiento.
Mixture of Experts FFN
Extensión de los FFN estándar utilizando múltiples expertos FFN selectivamente activados por una red de enrutamiento, permitiendo un aumento de capacidad sin aumento computacional proporcional.
ReLU-based FFN
Variante de FFN que utiliza ReLU como función de activación, más simple pero menos performante que GELU para la mayoría de las aplicaciones de Transformers.
Feed-Forward Projection
Operación de proyección lineal en los FFN transformando las representaciones entre espacios de dimensionalidades diferentes para capturar relaciones complejas.
Adaptive FFN
Arquitectura FFN avanzada ajustando dinámicamente sus parámetros según el contexto de entrada, mejorando la flexibilidad para tareas específicas.