Transformers y Arquitectura de Atención

📂

subcategorías

Mecanismo de Atención

Permite al modelo ponderar la importancia de diferentes partes de la entrada durante el procesamiento.

10 términos

📂

subcategorías

Self-Attention

Mecanismo donde cada elemento de la secuencia atiende a todos los demás elementos de la misma secuencia.

7 términos

📂

subcategorías

Multi-Head Attention

Extensión del self-attention que utiliza múltiples cabezas de atención en paralelo para capturar diferentes tipos de relaciones.

8 términos

📂

subcategorías

Codificación Posicional

Técnica para integrar información de posición en los embeddings sin usar una RNN.

19 términos

📂

subcategorías

Arquitectura Codificador-Decodificador

Estructura fundamental de los Transformers con codificador para comprender y decodificador para generar.

4 términos

📂

subcategorías

Scaled Dot-Product Attention

Forma matemática básica del cálculo de atención en los Transformers con escalado.

5 términos

📂

subcategorías

Redes Feed-Forward

Redes completamente conectadas aplicadas después de cada capa de atención en los Transformers.

16 términos

📂

subcategorías

Normalización de Capa

Técnica de normalización aplicada en los Transformers para estabilizar el entrenamiento.

6 términos

📂

subcategorías

Máscaras de Atención

Mecanismo para controlar qué tokens pueden prestar atención a otros tokens.

19 términos

📂

subcategorías

Transformadores de Visión (ViT)

Aplicación de la arquitectura Transformer al procesamiento de imágenes dividiendo las imágenes en parches.

14 términos

📂

subcategorías

Arquitectura BERT

Transformer solo codificador pre-entrenado con objetivos de masked language modeling.

11 términos

📂

subcategorías

Arquitectura de GPT

Decodificador de Transformer solo optimizado para la generación de texto de forma autorregresiva.

8 términos

📂

subcategorías

Cross-Attention

Mecanismo de atención entre dos secuencias diferentes en los codificadores-decodificadores.

5 términos

📂

subcategorías

Atención Dispersa

Variante de la atención que reduce la complejidad calculando solo pares selectivos.

18 términos

📂

subcategorías

Atención Jerárquica

Arquitectura multinivel que aplica la atención en diferentes escalas de granularidad.

12 términos

📂

subcategorías

Visualización de Atención

Técnicas para interpretar y visualizar los pesos de atención de los Transformers.

17 términos

📂

subcategorías

Optimización de Transformers

Métodos específicos para el entrenamiento eficiente de grandes modelos Transformers.

16 términos

📂

subcategorías

Multi-Modal Transformers

Arquitectura Transformer extendida para procesar simultáneamente varios tipos de datos.

18 términos

📂

subcategorías

Transformadores Eficientes

Variantes optimizadas de Transformers para reducir la complejidad computacional.

9 términos

📂

subcategorías

Variantes de Mecanismos de Atención

Diferentes enfoques y mejoras del mecanismo de atención más allá del producto punto.

9 términos

Glosario IA

Mecanismo de Atención

Self-Attention

Multi-Head Attention

Codificación Posicional

Arquitectura Codificador-Decodificador

Scaled Dot-Product Attention

Redes Feed-Forward

Normalización de Capa

Máscaras de Atención

Transformadores de Visión (ViT)

Arquitectura BERT

Arquitectura de GPT

Cross-Attention

Atención Dispersa

Atención Jerárquica

Visualización de Atención

Optimización de Transformers

Multi-Modal Transformers

Transformadores Eficientes

Variantes de Mecanismos de Atención

No se encontraron resultados