Variantes de Mecanismos de Atención

📖

términos

Codificación Posicional Relativa

Técnica de codificación posicional basada en las distancias relativas entre tokens en lugar de sus posiciones absolutas. Mejora la capacidad de generalización del modelo a longitudes de secuencia no vistas durante el entrenamiento.

📖

términos

Incrustación Posicional Rotacional (RoPE)

Método de codificación posicional que aplica una rotación matricial a las incrustaciones de consultas y claves según sus posiciones. Integra naturalmente la información posicional en el mecanismo de atención sin añadir parámetros.

📖

términos

Atención Lineal

Familia de mecanismos de atención con complejidad lineal O(n) que utilizan descomposiciones matriciales o núcleos para evitar el cálculo explícito de la matriz de atención. Permite procesar secuencias muy largas con eficiencia computacional aumentada.

📖

términos

Atención Longformer

Arquitectura híbrida que combina atención local por ventana deslizante y atención global para ciertos tokens. Permite procesar documentos de varios miles de tokens con complejidad lineal.

📖

términos

Atención BigBird

Mecanismo de atención dispersa que combina tres tipos de conexiones: aleatorias, locales y globales para aproximar la atención completa. Teóricamente demostrado como aproximante universal para grafos completos con complejidad lineal.

📖

términos

Atención Reformer

Implementación eficiente que utiliza LSH (Hashing Sensible a la Localidad) para limitar la atención solo a tokens similares. Reduce drásticamente la complejidad mientras preserva las relaciones semánticas importantes.

📖

términos

Atención Linformer

Proyección de baja dimensión de las matrices de claves y valores para reducir la complejidad de O(n²) a O(n). Basado en la hipótesis de que las matrices de atención tienen rango bajo en muchos escenarios prácticos.

📖

términos

Atención Kernel

Enfoque que reemplaza el softmax por funciones kernel positivas para obtener complejidad lineal. Permite aproximaciones eficientes mientras preserva las propiedades matemáticas de la atención.

📖

términos

Span de Atención Adaptativo

Mecanismo donde cada cabeza de atención aprende dinámicamente su rango óptimo durante el entrenamiento. Optimiza el uso computacional concentrando la atención donde es necesaria según los patrones aprendidos.

Glosario IA

Codificación Posicional Relativa

Incrustación Posicional Rotacional (RoPE)

Atención Lineal

Atención Longformer

Atención BigBird

Atención Reformer

Atención Linformer

Atención Kernel

Span de Atención Adaptativo

No se encontraron resultados