Glosario IA
El diccionario completo de la Inteligencia Artificial
Vision Transformer (ViT)
Arquitectura neuronal que aplica los mecanismos Transformer al procesamiento de imágenes dividiendo las imágenes en secuencias de parches para un procesamiento secuencial.
Patch Embedding
Proceso de conversión de los parches de imágenes en vectores de embeddings de dimensión fija mediante proyección lineal para alimentar el Transformer.
Class Token
Token especial añadido a la secuencia de embeddings cuya representación final después de pasar por el Transformer se utiliza para la clasificación de la imagen.
Multi-Head Self-Attention
Mecanismo que permite al modelo calcular simultáneamente múltiples representaciones de atención para capturar diferentes relaciones entre los parches de la imagen.
Transformer Encoder
Bloque fundamental compuesto por capas de self-attention y redes feed-forward alternando con normalización y conexiones residuales.
Image Patch Tokenization
Proceso de división de una imagen en parches no superpuestos de tamaño fijo, típicamente de 16x16 píxeles, convertidos posteriormente en tokens secuenciales.
Attention Map Visualization
Técnica de interpretabilidad que visualiza los pesos de atención entre parches para comprender las regiones de la imagen en las que el modelo se concentra.
Pre-training on Large Datasets
Fase de entrenamiento inicial en millones de imágenes como ImageNet-21k para aprender representaciones visuales generales antes del fine-tuning.
Hiperparámetro de Tamaño de Parche
Parámetro crucial que define la dimensión de los parches de imágenes influyendo directamente en la complejidad computacional y el rendimiento del modelo.
Reconstrucción de Token a Parche
Proceso inverso en tareas generativas donde los tokens se reconvierten en parches de imagen para reconstruir la imagen original.
Transformador de Visión Jerárquico
Variante de ViT que utiliza una estructura piramidal con tamaños de parches variables para capturar características multiescala.
Pre-entrenamiento Auto-supervisado de ViT
Métodos de entrenamiento no supervisado como DINO o MAE que aprovechan la estructura Transformer para aprender sin anotaciones.
Atención Cruzada en ViT Multimodal
Mecanismo que extiende ViT para procesar conjuntamente imágenes y texto utilizando la atención entre modalidades diferentes.
Complejidad Computacional O(n²)
Complejidad cuadrática del auto-atención con respecto al número de parches que constituye la limitación principal de los Vision Transformers.