Transformadores de visión

📖

términos

Cabeza MLP

Módulo de clasificación final compuesto generalmente por una capa completamente conectada con activación, seguida de una capa de salida para las predicciones de clases. La cabeza MLP procesa la representación final del token de clase para generar los puntajes de clasificación para cada clase posible.

📖

términos

Tamaño de parche

Dimensión espacial de los cuadrados en los que se divide la imagen de entrada, típicamente 16x16 o 32x32 píxeles para las arquitecturas ViT estándar. El tamaño de los parches influye directamente en el número de tokens generados y en la granularidad de la información espacial preservada por el modelo.

📖

términos

Tokenización de imagen

Proceso de conversión de una imagen 2D en una secuencia de tokens 1D procesables por los Transformers, que implica la segmentación en parches y la proyección lineal. Esta tokenización es el paso crucial que permite adaptar la arquitectura Transformer, diseñada originalmente para el texto, al dominio de la visión.

📖

términos

Características invariantes a la escala

Características extraídas por los Vision Transformers que permanecen robustas ante los cambios de escala de los objetos en las imágenes. Estas propiedades emergen naturalmente de la arquitectura global de los Transformers gracias a su capacidad para modelar relaciones a larga distancia entre parches.

📖

términos

Token-to-Token ViT (T2T-ViT)

Variante del Vision Transformer que utiliza un proceso de tokenización iterativo para transformar progresivamente los parches en tokens más informativos. Este enfoque permite una mejor modelización de la estructura local y una reducción progresiva de la resolución espacial, mejorando así la eficiencia computacional.

📖

términos

Pyramid Vision Transformer (PVT)

Arquitectura Transformer jerárquica que genera mapas de características a diferentes escalas, similar a las pirámides de características de las CNN. El PVT es particularmente adecuado para tareas de visión densa como la segmentación semántica y la detección de objetos que requieren representaciones multi-escala.

📖

términos

Swin Transformer

Arquitectura Transformer jerárquica con ventanas de atención desplazadas que permite una modelización eficiente de las relaciones locales y globales con una complejidad lineal. El Swin Transformer introduce conexiones multi-escala y ha demostrado un rendimiento excepcional en una amplia gama de tareas de visión.

📖

términos

DeiT (Data-efficient Image Transformers)

Variante de Vision Transformer entrenada con estrategias de destilación de conocimientos para alcanzar un rendimiento competitivo con menos datos de entrenamiento. DeiT introduce un token de destilación adicional que aprende de las predicciones de un profesor CNN, reduciendo así la brecha de rendimiento con los enfoques basados en datos masivos.

📖

términos

Autoencoders enmascarados (MAE)

Enfoque de preentrenamiento autosupervizado donde los Vision Transformers aprenden reconstruyendo parches de imágenes enmascarados a partir de los parches visibles restantes. Este método simple pero eficaz alcanza un rendimiento de vanguardia en el preentrenamiento a la vez que es muy eficiente en recursos computacionales.

Glosario IA

Cabeza MLP

Tamaño de parche

Tokenización de imagen

Características invariantes a la escala

Token-to-Token ViT (T2T-ViT)

Pyramid Vision Transformer (PVT)

Swin Transformer

DeiT (Data-efficient Image Transformers)

Autoencoders enmascarados (MAE)

No se encontraron resultados