Atención Dispersa - Glosario IA

📖

términos

Longformer

Arquitectura Transformer que utiliza una combinación de atención local por ventana deslizante y atención global para procesar eficientemente secuencias muy largas con complejidad lineal.

📖

términos

Modelo que implementa la atención dispersa a través de tres patrones: atención local, global y aleatoria, permitiendo el procesamiento de secuencias de hasta 4096 tokens con preservación teórica de las propiedades universales.

📖

términos

Sliding Window Attention

Técnica donde cada token solo atiende a un número fijo de vecinos en una ventana deslizante, reduciendo la complejidad a O(n*w) donde w es el tamaño de la ventana.

📖

términos

Dilated Sliding Window

Variante de la atención por ventana deslizante que usa saltos (dilatación) para aumentar el campo receptivo sin aumentar la complejidad computacional.

📖

términos

Global Attention

Mecanismo donde ciertos tokens predefinidos (como tokens [CLS]) pueden atraer la atención de todos los demás tokens, permitiendo la propagación de información a través de toda la secuencia.

📖

términos

Random Attention

Enfoque donde cada token atrae aleatoriamente la atención sobre un subconjunto de tokens distantes, preservando las conexiones de larga distancia con bajo sobrecosto computacional.

📖

términos

Pattern-based Attention

Estrategia que aplica patrones predefinidos de atención dispersa (como patrones fijos o aprendidos) para determinar qué pares consulta-clave calcular.

📖

términos

Linear Complexity Attention

Clase de métodos de atención que reducen la complejidad algorítmica de O(n²) a O(n), permitiendo el escalado para secuencias muy largas.

📖

términos

Atención basada en núcleos

Enfoque que utiliza núcleos para aproximar la atención softmax, permitiendo cálculos en complejidad lineal a través de técnicas como FAVOR+ (Fast Attention Via Positive Orthogonal Random Features).

📖

términos

Aproximación de bajo rango

Técnica que aproxima la matriz de atención mediante una descomposición de rango reducido, reduciendo significativamente los requisitos de memoria y cálculo.

📖

términos

Atención basada en agrupamiento

Método que agrupa primero los tokens en clústeres similares y luego aplica la atención a nivel de clústeres, reduciendo el número de cálculos necesarios.

📖

términos

Atención de enrutamiento

Mecanismo que aprende a enrutar las consultas hacia las claves más relevantes utilizando funciones de enrutamiento basadas en contenido, evitando cálculos innecesarios.

📖

términos

Reformer

Arquitectura que utiliza la sensibilidad a la localidad (LSH) para limitar los cálculos de atención a los pares más similares, con complejidad casi lineal en la longitud de la secuencia.

📖

términos

Performer

Modelo basado en la atención FAVOR+ que aproxima eficientemente la atención softmax mediante características aleatorias ortogonales positivas, permitiendo complejidad lineal.

📖

términos

Linformer

Arquitectura que proyecta la matriz clave-valor en un espacio de dimensión inferior, transformando la complejidad de O(n²) a O(n*k) donde k << n.

📖

términos

Transformer de enrutamiento

Modelo que utiliza un enrutamiento basado en k-means para agrupar los tokens y aplicar la atención selectivamente, optimizando los cálculos para las dependencias a larga distancia.

📖

términos

Sinkhorn Sorting

Algoritmo que utiliza la iteración de Sinkhorn para transformar la atención en permutación diferenciable, aplicado en las arquitecturas de atención dispersa.

📖

términos

Efficient Attention

Paradigma que engloba todas las variantes de atención destinadas a reducir la complejidad computacional preservando las capacidades de modelado de los Transformers.

Glosario IA

Longformer

BigBird

Sliding Window Attention

Dilated Sliding Window

Global Attention

Random Attention

Pattern-based Attention

Linear Complexity Attention

Atención basada en núcleos

Aproximación de bajo rango

Atención basada en agrupamiento

Atención de enrutamiento

Reformer

Performer

Linformer

Transformer de enrutamiento

Sinkhorn Sorting

Efficient Attention

No se encontraron resultados