Glosario IA
El diccionario completo de la Inteligencia Artificial
Longformer
Arquitectura Transformer que utiliza una combinación de atención local por ventana deslizante y atención global para procesar eficientemente secuencias muy largas con complejidad lineal.
BigBird
Modelo que implementa la atención dispersa a través de tres patrones: atención local, global y aleatoria, permitiendo el procesamiento de secuencias de hasta 4096 tokens con preservación teórica de las propiedades universales.
Sliding Window Attention
Técnica donde cada token solo atiende a un número fijo de vecinos en una ventana deslizante, reduciendo la complejidad a O(n*w) donde w es el tamaño de la ventana.
Dilated Sliding Window
Variante de la atención por ventana deslizante que usa saltos (dilatación) para aumentar el campo receptivo sin aumentar la complejidad computacional.
Global Attention
Mecanismo donde ciertos tokens predefinidos (como tokens [CLS]) pueden atraer la atención de todos los demás tokens, permitiendo la propagación de información a través de toda la secuencia.
Random Attention
Enfoque donde cada token atrae aleatoriamente la atención sobre un subconjunto de tokens distantes, preservando las conexiones de larga distancia con bajo sobrecosto computacional.
Pattern-based Attention
Estrategia que aplica patrones predefinidos de atención dispersa (como patrones fijos o aprendidos) para determinar qué pares consulta-clave calcular.
Linear Complexity Attention
Clase de métodos de atención que reducen la complejidad algorítmica de O(n²) a O(n), permitiendo el escalado para secuencias muy largas.
Atención basada en núcleos
Enfoque que utiliza núcleos para aproximar la atención softmax, permitiendo cálculos en complejidad lineal a través de técnicas como FAVOR+ (Fast Attention Via Positive Orthogonal Random Features).
Aproximación de bajo rango
Técnica que aproxima la matriz de atención mediante una descomposición de rango reducido, reduciendo significativamente los requisitos de memoria y cálculo.
Atención basada en agrupamiento
Método que agrupa primero los tokens en clústeres similares y luego aplica la atención a nivel de clústeres, reduciendo el número de cálculos necesarios.
Atención de enrutamiento
Mecanismo que aprende a enrutar las consultas hacia las claves más relevantes utilizando funciones de enrutamiento basadas en contenido, evitando cálculos innecesarios.
Reformer
Arquitectura que utiliza la sensibilidad a la localidad (LSH) para limitar los cálculos de atención a los pares más similares, con complejidad casi lineal en la longitud de la secuencia.
Performer
Modelo basado en la atención FAVOR+ que aproxima eficientemente la atención softmax mediante características aleatorias ortogonales positivas, permitiendo complejidad lineal.
Linformer
Arquitectura que proyecta la matriz clave-valor en un espacio de dimensión inferior, transformando la complejidad de O(n²) a O(n*k) donde k << n.
Transformer de enrutamiento
Modelo que utiliza un enrutamiento basado en k-means para agrupar los tokens y aplicar la atención selectivamente, optimizando los cálculos para las dependencias a larga distancia.
Sinkhorn Sorting
Algoritmo que utiliza la iteración de Sinkhorn para transformar la atención en permutación diferenciable, aplicado en las arquitecturas de atención dispersa.
Efficient Attention
Paradigma que engloba todas las variantes de atención destinadas a reducir la complejidad computacional preservando las capacidades de modelado de los Transformers.