Transformadores de Visión (ViT)
Multi-Head Self-Attention
Mecanismo que permite al modelo calcular simultáneamente múltiples representaciones de atención para capturar diferentes relaciones entre los parches de la imagen.
← Volver