Glosario IA
El diccionario completo de la Inteligencia Artificial
Codificación Posicional Relativa
Técnica de codificación posicional basada en las distancias relativas entre tokens en lugar de sus posiciones absolutas. Mejora la capacidad de generalización del modelo a longitudes de secuencia no vistas durante el entrenamiento.
Incrustación Posicional Rotacional (RoPE)
Método de codificación posicional que aplica una rotación matricial a las incrustaciones de consultas y claves según sus posiciones. Integra naturalmente la información posicional en el mecanismo de atención sin añadir parámetros.
Atención Lineal
Familia de mecanismos de atención con complejidad lineal O(n) que utilizan descomposiciones matriciales o núcleos para evitar el cálculo explícito de la matriz de atención. Permite procesar secuencias muy largas con eficiencia computacional aumentada.
Atención Longformer
Arquitectura híbrida que combina atención local por ventana deslizante y atención global para ciertos tokens. Permite procesar documentos de varios miles de tokens con complejidad lineal.
Atención BigBird
Mecanismo de atención dispersa que combina tres tipos de conexiones: aleatorias, locales y globales para aproximar la atención completa. Teóricamente demostrado como aproximante universal para grafos completos con complejidad lineal.
Atención Reformer
Implementación eficiente que utiliza LSH (Hashing Sensible a la Localidad) para limitar la atención solo a tokens similares. Reduce drásticamente la complejidad mientras preserva las relaciones semánticas importantes.
Atención Linformer
Proyección de baja dimensión de las matrices de claves y valores para reducir la complejidad de O(n²) a O(n). Basado en la hipótesis de que las matrices de atención tienen rango bajo en muchos escenarios prácticos.
Atención Kernel
Enfoque que reemplaza el softmax por funciones kernel positivas para obtener complejidad lineal. Permite aproximaciones eficientes mientras preserva las propiedades matemáticas de la atención.
Span de Atención Adaptativo
Mecanismo donde cada cabeza de atención aprende dinámicamente su rango óptimo durante el entrenamiento. Optimiza el uso computacional concentrando la atención donde es necesaria según los patrones aprendidos.