Vision Transformers (ViT)

📖

términos

Auto-Atención Multi-Cabeza (MHSA)

Mecanismo que permite al modelo concentrarse en diferentes partes de la imagen simultáneamente calculando múltiples matrices de atención en paralelo, capturando así diversos tipos de relaciones espaciales.

📖

términos

Escala de Capa

Técnica de regularización introducida en los ViT profundos donde se aplican pesos aprendibles a las salidas de los residuos para estabilizar el entrenamiento de las capas iniciales.

📖

términos

Atención por Ventanas

Mecanismo de atención restringido a ventanas locales no superpuestas de la imagen, reduciendo la complejidad computacional de O(n²) a O(n) donde n es el número de parches.

📖

términos

Atención por Ventanas Desplazadas

Técnica donde las ventanas de atención se desplazan entre capas para permitir conexiones entre ventanas, mejorando así la capacidad del modelo para modelar relaciones de larga distancia.

📖

términos

DeiT (Transformador de Imagen Eficiente en Datos)

Variante del ViT entrenable con cantidades de datos más modestas gracias a una estrategia de destilación de conocimiento donde se añade un token de destilación para aprender de un profesor CNN.

📖

términos

Token de Destilación

Token adicional en DeiT que aprende a imitar las predicciones de un modelo profesor (a menudo un CNN), facilitando la transferencia de conocimiento y mejorando el rendimiento con menos datos.

📖

términos

Autoencoder Enmascarado (MAE)

Enfoque de auto-supervisión para ViT donde parches aleatorios de la imagen se enmascaran (hasta 75%) y el modelo aprende a reconstruirlos, revelando capacidades de aprendizaje sorprendentes.

📖

términos

Fusión de Parches

Operación en transformers jerárquicos que combina grupos de 2x2 parches adyacentes para crear tokens de resolución inferior, aumentando así la profundidad y el campo receptivo.

📖

términos

Sesgo de Posición Relativa

Sesgo añadido a las puntuaciones de atención que depende de la posición relativa de los parches, mejorando la capacidad del modelo para comprender las relaciones espaciales sin codificación de posición absoluta.

📖

términos

Arquitectura Híbrida

Enfoque que combina una red convolutiva inicial para la extracción de características con un transformador para el procesamiento global, utilizado en las primeras implementaciones de ViT para reducir las necesidades de datos.

📖

términos

Etiquetado de Tokens

Estrategia de entrenamiento donde cada parche recibe una etiqueta supervisada en lugar de una sola etiqueta por imagen, forzando al modelo a aprender representaciones más ricas y localizadas.

Glosario IA

Auto-Atención Multi-Cabeza (MHSA)

Escala de Capa

Atención por Ventanas

Atención por Ventanas Desplazadas

DeiT (Transformador de Imagen Eficiente en Datos)

Token de Destilación

Autoencoder Enmascarado (MAE)

Fusión de Parches

Sesgo de Posición Relativa

Arquitectura Híbrida

Etiquetado de Tokens

No se encontraron resultados