Vision Transformers
Cross-Attention Vision Transformer
Arquitetura que utiliza mecanismos de atenção cruzada entre diferentes modalidades ou representações, permitindo interações mais ricas entre features.
← Voltar