Glosario IA
El diccionario completo de la Inteligencia Artificial
Token de Clasificación ([CLS])
Token especial añadido a la secuencia de parches, cuya representación final se utiliza para la tarea de clasificación global de la imagen, similar al BERT en PLN.
Codificación Posicional 2D
Información sobre la posición espacial de los parches añadida a los embeddings, permitiendo al modelo comprender la estructura 2D de la imagen a pesar del procesamiento secuencial.
Sesgo Inductivo
Supuestos integrados en un modelo; los ViT tienen un sesgo inductivo más débil que las CNN ya que no incorporan conocimientos previos sobre la localización y la translación de píxeles.
Atención Auto-Atencional por Ventanas
Mecanismo de atención donde los cálculos se restringen a ventanas locales de parches, reduciendo la complejidad cuadrática del MHSA estándar para imágenes de alta resolución.
Preentrenamiento en Conjuntos de Datos a Gran Escala
Fase inicial de entrenamiento de un ViT en corpus masivos como ImageNet-21k o JFT-300M, esencial para superar su bajo sesgo inductivo y lograr buenos resultados.