Glosario IA
El diccionario completo de la Inteligencia Artificial
Sparse Transformer
Variante que utiliza patrones de atención dispersos predictivos para reducir las conexiones computacionales mientras captura las dependencias a larga distancia. La arquitectura factoriza la atención en subconjuntos para optimizar el procesamiento.
Compressive Transformer
Extensión de Transformer-XL que comprime las memorias ocultas antiguas en vectores más densos para preservar el historial a largo plazo. Esta compresión permite un almacenamiento eficiente de información contextual extensa.
Universal Transformer
Arquitectura adaptativa donde la profundidad se determina dinámicamente mediante un mecanismo de parada adaptativo en lugar de fija. Universal Transformer aplica iterativamente transformaciones de pesos compartidos con atención adaptativa.
Set Transformer
Arquitectura de invarianza a permutación basada en atención para procesar conjuntos de datos sin orden predefinido. Set Transformer utiliza bloques de atención inducida y mecanismos de pooling para operaciones sobre conjuntos.
Synthesizer
Variante donde los pesos de atención se aprenden directamente de los embeddings de posición o se generan mediante pequeñas redes, sin depender del contenido de los tokens. Este enfoque elimina la necesidad de cálculos de similitud QK.
Linear Transformer
Arquitectura que utiliza la descomposición kernelizada de la atención para alcanzar una complejidad lineal en secuencia y memoria. Linear Transformer reemplaza softmax por funciones kernel positivas para permitir el reordenamiento asociativo.
Local Attention
Mecanismo de atención restringido a vecindarios locales alrededor de cada posición, reduciendo drásticamente el número de pares de tokens a considerar. Este enfoque es particularmente eficiente para datos con fuerte estructura local.
Dilated Attention
Extensión de sliding window attention que utiliza patrones dilatados para capturar dependencias de mayor alcance sin aumentar la complejidad. Los huecos en el patrón permiten una expansión exponencial del campo receptivo.
Atención Axial
Descomposición de la atención multidimensional en atenciones unidimensionales aplicadas secuencialmente en cada eje. La atención axial reduce la complejidad de O(n²) a O(n*d) donde d es el número de dimensiones.