🏠 Inicio
Pruebas de rendimiento
📊 Todos los benchmarks 🦖 Dinosaurio v1 🦖 Dinosaurio v2 ✅ Aplicaciones To-Do List 🎨 Páginas libres creativas 🎯 FSACB - Showcase definitivo 🌍 Benchmark de traducción
Modelos
🏆 Top 10 modelos 🆓 Modelos gratuitos 📋 Todos los modelos ⚙️ Kilo Code
Recursos
💬 Biblioteca de prompts 📖 Glosario de IA 🔗 Enlaces útiles

Glosario IA

El diccionario completo de la Inteligencia Artificial

231
categorías
2.999
subcategorías
35.535
términos
📖
términos

Longformer

Arquitectura Transformer que utiliza una combinación de atención local por ventana deslizante y atención global para procesar eficientemente secuencias muy largas con complejidad lineal.

📖
términos

BigBird

Modelo que implementa la atención dispersa a través de tres patrones: atención local, global y aleatoria, permitiendo el procesamiento de secuencias de hasta 4096 tokens con preservación teórica de las propiedades universales.

📖
términos

Sliding Window Attention

Técnica donde cada token solo atiende a un número fijo de vecinos en una ventana deslizante, reduciendo la complejidad a O(n*w) donde w es el tamaño de la ventana.

📖
términos

Dilated Sliding Window

Variante de la atención por ventana deslizante que usa saltos (dilatación) para aumentar el campo receptivo sin aumentar la complejidad computacional.

📖
términos

Global Attention

Mecanismo donde ciertos tokens predefinidos (como tokens [CLS]) pueden atraer la atención de todos los demás tokens, permitiendo la propagación de información a través de toda la secuencia.

📖
términos

Random Attention

Enfoque donde cada token atrae aleatoriamente la atención sobre un subconjunto de tokens distantes, preservando las conexiones de larga distancia con bajo sobrecosto computacional.

📖
términos

Pattern-based Attention

Estrategia que aplica patrones predefinidos de atención dispersa (como patrones fijos o aprendidos) para determinar qué pares consulta-clave calcular.

📖
términos

Linear Complexity Attention

Clase de métodos de atención que reducen la complejidad algorítmica de O(n²) a O(n), permitiendo el escalado para secuencias muy largas.

📖
términos

Atención basada en núcleos

Enfoque que utiliza núcleos para aproximar la atención softmax, permitiendo cálculos en complejidad lineal a través de técnicas como FAVOR+ (Fast Attention Via Positive Orthogonal Random Features).

📖
términos

Aproximación de bajo rango

Técnica que aproxima la matriz de atención mediante una descomposición de rango reducido, reduciendo significativamente los requisitos de memoria y cálculo.

📖
términos

Atención basada en agrupamiento

Método que agrupa primero los tokens en clústeres similares y luego aplica la atención a nivel de clústeres, reduciendo el número de cálculos necesarios.

📖
términos

Atención de enrutamiento

Mecanismo que aprende a enrutar las consultas hacia las claves más relevantes utilizando funciones de enrutamiento basadas en contenido, evitando cálculos innecesarios.

📖
términos

Reformer

Arquitectura que utiliza la sensibilidad a la localidad (LSH) para limitar los cálculos de atención a los pares más similares, con complejidad casi lineal en la longitud de la secuencia.

📖
términos

Performer

Modelo basado en la atención FAVOR+ que aproxima eficientemente la atención softmax mediante características aleatorias ortogonales positivas, permitiendo complejidad lineal.

📖
términos

Linformer

Arquitectura que proyecta la matriz clave-valor en un espacio de dimensión inferior, transformando la complejidad de O(n²) a O(n*k) donde k << n.

📖
términos

Transformer de enrutamiento

Modelo que utiliza un enrutamiento basado en k-means para agrupar los tokens y aplicar la atención selectivamente, optimizando los cálculos para las dependencias a larga distancia.

📖
términos

Sinkhorn Sorting

Algoritmo que utiliza la iteración de Sinkhorn para transformar la atención en permutación diferenciable, aplicado en las arquitecturas de atención dispersa.

📖
términos

Efficient Attention

Paradigma que engloba todas las variantes de atención destinadas a reducir la complejidad computacional preservando las capacidades de modelado de los Transformers.

🔍

No se encontraron resultados