Glosario IA
El diccionario completo de la Inteligencia Artificial
Mecanismo de Atención
Permite al modelo ponderar la importancia de diferentes partes de la entrada durante el procesamiento.
Self-Attention
Mecanismo donde cada elemento de la secuencia atiende a todos los demás elementos de la misma secuencia.
Multi-Head Attention
Extensión del self-attention que utiliza múltiples cabezas de atención en paralelo para capturar diferentes tipos de relaciones.
Codificación Posicional
Técnica para integrar información de posición en los embeddings sin usar una RNN.
Arquitectura Codificador-Decodificador
Estructura fundamental de los Transformers con codificador para comprender y decodificador para generar.
Scaled Dot-Product Attention
Forma matemática básica del cálculo de atención en los Transformers con escalado.
Redes Feed-Forward
Redes completamente conectadas aplicadas después de cada capa de atención en los Transformers.
Normalización de Capa
Técnica de normalización aplicada en los Transformers para estabilizar el entrenamiento.
Máscaras de Atención
Mecanismo para controlar qué tokens pueden prestar atención a otros tokens.
Transformadores de Visión (ViT)
Aplicación de la arquitectura Transformer al procesamiento de imágenes dividiendo las imágenes en parches.
Arquitectura BERT
Transformer solo codificador pre-entrenado con objetivos de masked language modeling.
Arquitectura de GPT
Decodificador de Transformer solo optimizado para la generación de texto de forma autorregresiva.
Cross-Attention
Mecanismo de atención entre dos secuencias diferentes en los codificadores-decodificadores.
Atención Dispersa
Variante de la atención que reduce la complejidad calculando solo pares selectivos.
Atención Jerárquica
Arquitectura multinivel que aplica la atención en diferentes escalas de granularidad.
Visualización de Atención
Técnicas para interpretar y visualizar los pesos de atención de los Transformers.
Optimización de Transformers
Métodos específicos para el entrenamiento eficiente de grandes modelos Transformers.
Multi-Modal Transformers
Arquitectura Transformer extendida para procesar simultáneamente varios tipos de datos.
Transformadores Eficientes
Variantes optimizadas de Transformers para reducir la complejidad computacional.
Variantes de Mecanismos de Atención
Diferentes enfoques y mejoras del mecanismo de atención más allá del producto punto.