Vision Transformers (ViT)
Etiquetado de Tokens
Estrategia de entrenamiento donde cada parche recibe una etiqueta supervisada en lugar de una sola etiqueta por imagen, forzando al modelo a aprender representaciones más ricas y localizadas.
← Volver