🏠 Inicio
Pruebas de rendimiento
📊 Todos los benchmarks 🦖 Dinosaurio v1 🦖 Dinosaurio v2 ✅ Aplicaciones To-Do List 🎨 Páginas libres creativas 🎯 FSACB - Showcase definitivo 🌍 Benchmark de traducción
Modelos
🏆 Top 10 modelos 🆓 Modelos gratuitos 📋 Todos los modelos ⚙️ Kilo Code
Recursos
💬 Biblioteca de prompts 📖 Glosario de IA 🔗 Enlaces útiles

Glosario IA

El diccionario completo de la Inteligencia Artificial

231
categorías
2.999
subcategorías
35.535
términos
📖
términos

Position-wise Feed-Forward Network

Red neuronal aplicada de manera independiente a cada posición de la secuencia en la arquitectura Transformer, realizando transformaciones no lineales después del mecanismo de atención.

📖
términos

GELU Activation

Función de activación Gaussian Error Linear Unit utilizada en los FFN de los Transformers, combinando propiedades de dropout y de ReLU para una regularización estocástica.

📖
términos

Two-layer MLP

Arquitectura multicapa estándar de los FFN en los Transformers compuesta por dos transformaciones lineales con una función de activación no lineal entre ellas.

📖
términos

Hidden Dimension Expansion

Aumento de la dimensionalidad en la primera capa del FFN (generalmente 4x la dimensión del modelo) antes de la reducción en la segunda capa, permitiendo mayor capacidad expresiva.

📖
términos

Feed-Forward Dimension

Dimensión intermedia del FFN en los Transformers, típicamente cuatro veces superior a la dimensión del modelo para aumentar la capacidad de representación.

📖
términos

Position-independent Processing

Característica fundamental de los FFN que aplica los mismos pesos a todas las posiciones, a diferencia del mecanismo de atención que es dependiente de la posición.

📖
términos

Swish Activation

Función de activación alternativa a GELU en los FFN, definida como x * sigmoid(βx), ofreciendo rendimiento comparable con mejor diferenciabilidad.

📖
términos

GLU Variants

Gated Linear Units y sus variantes (GeGLU, SwiGLU) utilizadas como alternativas a los FFN estándar, introduciendo mecanismos de puerta para un control selectivo del flujo de información.

📖
términos

Feed-Forward Sublayer

Componente individual del bloque Transformer que contiene el FFN, incluyendo conexiones residuales y normalización de capa para estabilizar el entrenamiento.

📖
términos

Linear Transformation Matrices

Pesos W1 y W2 del FFN transformando respectivamente hacia la dimensión extendida y regresando a la dimensión original del modelo.

📖
términos

FFN Dropout

Mecanismo de regularización aplicado después de la activación en los FFN de los Transformers, desactivando aleatoriamente neuronas para prevenir el sobreaprendizaje.

📖
términos

Inner Layer Normalization

Aplicación de la normalización de capa antes o después del FFN en la arquitectura Transformer, con variantes pre-norm y post-norm afectando la estabilidad del entrenamiento.

📖
términos

Mixture of Experts FFN

Extensión de los FFN estándar utilizando múltiples expertos FFN selectivamente activados por una red de enrutamiento, permitiendo un aumento de capacidad sin aumento computacional proporcional.

📖
términos

ReLU-based FFN

Variante de FFN que utiliza ReLU como función de activación, más simple pero menos performante que GELU para la mayoría de las aplicaciones de Transformers.

📖
términos

Feed-Forward Projection

Operación de proyección lineal en los FFN transformando las representaciones entre espacios de dimensionalidades diferentes para capturar relaciones complejas.

📖
términos

Adaptive FFN

Arquitectura FFN avanzada ajustando dinámicamente sus parámetros según el contexto de entrada, mejorando la flexibilidad para tareas específicas.

🔍

No se encontraron resultados