Transformadores de Visión (ViT)

📖

términos

Vision Transformer (ViT)

Arquitectura neuronal que aplica los mecanismos Transformer al procesamiento de imágenes dividiendo las imágenes en secuencias de parches para un procesamiento secuencial.

📖

términos

Patch Embedding

Proceso de conversión de los parches de imágenes en vectores de embeddings de dimensión fija mediante proyección lineal para alimentar el Transformer.

📖

términos

Class Token

Token especial añadido a la secuencia de embeddings cuya representación final después de pasar por el Transformer se utiliza para la clasificación de la imagen.

📖

términos

Multi-Head Self-Attention

Mecanismo que permite al modelo calcular simultáneamente múltiples representaciones de atención para capturar diferentes relaciones entre los parches de la imagen.

📖

términos

Transformer Encoder

Bloque fundamental compuesto por capas de self-attention y redes feed-forward alternando con normalización y conexiones residuales.

📖

términos

Image Patch Tokenization

Proceso de división de una imagen en parches no superpuestos de tamaño fijo, típicamente de 16x16 píxeles, convertidos posteriormente en tokens secuenciales.

📖

términos

Attention Map Visualization

Técnica de interpretabilidad que visualiza los pesos de atención entre parches para comprender las regiones de la imagen en las que el modelo se concentra.

📖

términos

Pre-training on Large Datasets

Fase de entrenamiento inicial en millones de imágenes como ImageNet-21k para aprender representaciones visuales generales antes del fine-tuning.

📖

términos

Hiperparámetro de Tamaño de Parche

Parámetro crucial que define la dimensión de los parches de imágenes influyendo directamente en la complejidad computacional y el rendimiento del modelo.

📖

términos

Reconstrucción de Token a Parche

Proceso inverso en tareas generativas donde los tokens se reconvierten en parches de imagen para reconstruir la imagen original.

📖

términos

Transformador de Visión Jerárquico

Variante de ViT que utiliza una estructura piramidal con tamaños de parches variables para capturar características multiescala.

📖

términos

Pre-entrenamiento Auto-supervisado de ViT

Métodos de entrenamiento no supervisado como DINO o MAE que aprovechan la estructura Transformer para aprender sin anotaciones.

📖

términos

Atención Cruzada en ViT Multimodal

Mecanismo que extiende ViT para procesar conjuntamente imágenes y texto utilizando la atención entre modalidades diferentes.

📖

términos

Complejidad Computacional O(n²)

Complejidad cuadrática del auto-atención con respecto al número de parches que constituye la limitación principal de los Vision Transformers.

Glosario IA

Vision Transformer (ViT)

Patch Embedding

Class Token

Multi-Head Self-Attention

Transformer Encoder

Image Patch Tokenization

Attention Map Visualization

Pre-training on Large Datasets

Hiperparámetro de Tamaño de Parche

Reconstrucción de Token a Parche

Transformador de Visión Jerárquico

Pre-entrenamiento Auto-supervisado de ViT

Atención Cruzada en ViT Multimodal

Complejidad Computacional O(n²)

No se encontraron resultados