Glosario IA
El diccionario completo de la Inteligencia Artificial
Auto-Atención Multi-Cabeza (MHSA)
Mecanismo que permite al modelo concentrarse en diferentes partes de la imagen simultáneamente calculando múltiples matrices de atención en paralelo, capturando así diversos tipos de relaciones espaciales.
Escala de Capa
Técnica de regularización introducida en los ViT profundos donde se aplican pesos aprendibles a las salidas de los residuos para estabilizar el entrenamiento de las capas iniciales.
Atención por Ventanas
Mecanismo de atención restringido a ventanas locales no superpuestas de la imagen, reduciendo la complejidad computacional de O(n²) a O(n) donde n es el número de parches.
Atención por Ventanas Desplazadas
Técnica donde las ventanas de atención se desplazan entre capas para permitir conexiones entre ventanas, mejorando así la capacidad del modelo para modelar relaciones de larga distancia.
DeiT (Transformador de Imagen Eficiente en Datos)
Variante del ViT entrenable con cantidades de datos más modestas gracias a una estrategia de destilación de conocimiento donde se añade un token de destilación para aprender de un profesor CNN.
Token de Destilación
Token adicional en DeiT que aprende a imitar las predicciones de un modelo profesor (a menudo un CNN), facilitando la transferencia de conocimiento y mejorando el rendimiento con menos datos.
Autoencoder Enmascarado (MAE)
Enfoque de auto-supervisión para ViT donde parches aleatorios de la imagen se enmascaran (hasta 75%) y el modelo aprende a reconstruirlos, revelando capacidades de aprendizaje sorprendentes.
Fusión de Parches
Operación en transformers jerárquicos que combina grupos de 2x2 parches adyacentes para crear tokens de resolución inferior, aumentando así la profundidad y el campo receptivo.
Sesgo de Posición Relativa
Sesgo añadido a las puntuaciones de atención que depende de la posición relativa de los parches, mejorando la capacidad del modelo para comprender las relaciones espaciales sin codificación de posición absoluta.
Arquitectura Híbrida
Enfoque que combina una red convolutiva inicial para la extracción de características con un transformador para el procesamiento global, utilizado en las primeras implementaciones de ViT para reducir las necesidades de datos.
Etiquetado de Tokens
Estrategia de entrenamiento donde cada parche recibe una etiqueta supervisada en lugar de una sola etiqueta por imagen, forzando al modelo a aprender representaciones más ricas y localizadas.