Glosario IA
El diccionario completo de la Inteligencia Artificial
Parches de Imagen
División de una imagen en cuadrículas regulares de pequeñas secciones cuadradas (típicamente 16x16 píxeles) que son procesadas como tokens secuenciales por el ViT.
Tokenización Visual
Proceso de segmentación de una imagen en secuencia de tokens discretos, fundamental para adaptar la arquitectura transformer diseñada inicialmente para el texto a los datos visuales.
DeiT (Data-efficient Image Transformer)
Variante de Vision Transformer entrenada con estrategias de destilación para alcanzar un rendimiento competitivo con menos datos de entrenamiento.
Transformers Visuales Jerárquicos
Arquitecturas transformer que mantienen representaciones multi-escala de la imagen, combinando las ventajas de las CNN tradicionales con la flexibilidad de los transformers.
Escalado de Capa
Técnica de normalización aplicada a los residuos en las capas transformer para estabilizar el entrenamiento y mejorar la convergencia de los modelos profundos.
Transformer Visual de Atención Cruzada
Arquitectura que utiliza mecanismos de atención cruzada entre diferentes modalidades o representaciones, permitiendo interacciones más ricas entre características.
Auto-atención Basada en Ventanas
Variante de atención restringida a ventanas locales en lugar de la imagen completa, reduciendo la complejidad computacional mientras captura las relaciones locales importantes.