Glosario IA
El diccionario completo de la Inteligencia Artificial
Cabeza MLP
Módulo de clasificación final compuesto generalmente por una capa completamente conectada con activación, seguida de una capa de salida para las predicciones de clases. La cabeza MLP procesa la representación final del token de clase para generar los puntajes de clasificación para cada clase posible.
Tamaño de parche
Dimensión espacial de los cuadrados en los que se divide la imagen de entrada, típicamente 16x16 o 32x32 píxeles para las arquitecturas ViT estándar. El tamaño de los parches influye directamente en el número de tokens generados y en la granularidad de la información espacial preservada por el modelo.
Tokenización de imagen
Proceso de conversión de una imagen 2D en una secuencia de tokens 1D procesables por los Transformers, que implica la segmentación en parches y la proyección lineal. Esta tokenización es el paso crucial que permite adaptar la arquitectura Transformer, diseñada originalmente para el texto, al dominio de la visión.
Características invariantes a la escala
Características extraídas por los Vision Transformers que permanecen robustas ante los cambios de escala de los objetos en las imágenes. Estas propiedades emergen naturalmente de la arquitectura global de los Transformers gracias a su capacidad para modelar relaciones a larga distancia entre parches.
Token-to-Token ViT (T2T-ViT)
Variante del Vision Transformer que utiliza un proceso de tokenización iterativo para transformar progresivamente los parches en tokens más informativos. Este enfoque permite una mejor modelización de la estructura local y una reducción progresiva de la resolución espacial, mejorando así la eficiencia computacional.
Pyramid Vision Transformer (PVT)
Arquitectura Transformer jerárquica que genera mapas de características a diferentes escalas, similar a las pirámides de características de las CNN. El PVT es particularmente adecuado para tareas de visión densa como la segmentación semántica y la detección de objetos que requieren representaciones multi-escala.
Swin Transformer
Arquitectura Transformer jerárquica con ventanas de atención desplazadas que permite una modelización eficiente de las relaciones locales y globales con una complejidad lineal. El Swin Transformer introduce conexiones multi-escala y ha demostrado un rendimiento excepcional en una amplia gama de tareas de visión.
DeiT (Data-efficient Image Transformers)
Variante de Vision Transformer entrenada con estrategias de destilación de conocimientos para alcanzar un rendimiento competitivo con menos datos de entrenamiento. DeiT introduce un token de destilación adicional que aprende de las predicciones de un profesor CNN, reduciendo así la brecha de rendimiento con los enfoques basados en datos masivos.
Autoencoders enmascarados (MAE)
Enfoque de preentrenamiento autosupervizado donde los Vision Transformers aprenden reconstruyendo parches de imágenes enmascarados a partir de los parches visibles restantes. Este método simple pero eficaz alcanza un rendimiento de vanguardia en el preentrenamiento a la vez que es muy eficiente en recursos computacionales.