Glosario IA
El diccionario completo de la Inteligencia Artificial
Transformadores de Visión (ViT)
Arquitectura neuronal que aplica los transformadores originalmente diseñados para el PNL a tareas de visión dividiendo las imágenes en parches secuenciales.
Predicción de Rotación
Tarea pretexto donde el modelo debe predecir el ángulo de rotación aplicado a una imagen, aprendiendo así representaciones sensibles a la orientación espacial.
Resolución de Rompecabezas
Método pretexto que consiste en dividir una imagen en parches y entrenar al modelo para reensamblar las piezas en el orden espacial correcto.
SwAV
Predicción Intercambiada, método que combina aprendizaje contrastivo y agrupamiento en línea para asignar representaciones coherentes entre diferentes vistas aumentadas.
Autoencoders Enmascarados (MAE)
Arquitectura autosupervizada que enmascara un alto porcentaje de parches de imágenes y reconstruye solo los píxeles faltantes, no los parches visibles.
IBOT
Image BERT Pre-Training con Online Tokenizer, combinando modelado de imágenes enmascaradas y destilación de conocimiento para preentrenamientos robustos.
Data2Vec
Marco de trabajo unificado de aprendizaje autosupervizado para visión, audio y texto basado en la predicción de representaciones latentes en lugar de píxeles o tokens.
Aprendizaje Contrastivo Local-Global
Enfoque contrastivo que establece correspondencias entre las características locales y globales para capturar representaciones multiescala coherentes.
Optimización de la matriz de correlación cruzada
Técnica que optimiza directamente la matriz de correlación cruzada entre representaciones de vistas aumentadas para alinear los embeddings de forma óptima.