Transformadores Eficientes

📖

términos

Sparse Transformer

Variante que utiliza patrones de atención dispersos predictivos para reducir las conexiones computacionales mientras captura las dependencias a larga distancia. La arquitectura factoriza la atención en subconjuntos para optimizar el procesamiento.

📖

términos

Compressive Transformer

Extensión de Transformer-XL que comprime las memorias ocultas antiguas en vectores más densos para preservar el historial a largo plazo. Esta compresión permite un almacenamiento eficiente de información contextual extensa.

📖

términos

Universal Transformer

Arquitectura adaptativa donde la profundidad se determina dinámicamente mediante un mecanismo de parada adaptativo en lugar de fija. Universal Transformer aplica iterativamente transformaciones de pesos compartidos con atención adaptativa.

📖

términos

Set Transformer

Arquitectura de invarianza a permutación basada en atención para procesar conjuntos de datos sin orden predefinido. Set Transformer utiliza bloques de atención inducida y mecanismos de pooling para operaciones sobre conjuntos.

📖

términos

Synthesizer

Variante donde los pesos de atención se aprenden directamente de los embeddings de posición o se generan mediante pequeñas redes, sin depender del contenido de los tokens. Este enfoque elimina la necesidad de cálculos de similitud QK.

📖

términos

Linear Transformer

Arquitectura que utiliza la descomposición kernelizada de la atención para alcanzar una complejidad lineal en secuencia y memoria. Linear Transformer reemplaza softmax por funciones kernel positivas para permitir el reordenamiento asociativo.

📖

términos

Local Attention

Mecanismo de atención restringido a vecindarios locales alrededor de cada posición, reduciendo drásticamente el número de pares de tokens a considerar. Este enfoque es particularmente eficiente para datos con fuerte estructura local.

📖

términos

Dilated Attention

Extensión de sliding window attention que utiliza patrones dilatados para capturar dependencias de mayor alcance sin aumentar la complejidad. Los huecos en el patrón permiten una expansión exponencial del campo receptivo.

📖

términos

Atención Axial

Descomposición de la atención multidimensional en atenciones unidimensionales aplicadas secuencialmente en cada eje. La atención axial reduce la complejidad de O(n²) a O(n*d) donde d es el número de dimensiones.

Glosario IA

Sparse Transformer

Compressive Transformer

Universal Transformer

Set Transformer

Synthesizer

Linear Transformer

Local Attention

Dilated Attention

Atención Axial

No se encontraron resultados