Transformers Multimodais
Patch Embedding Visual
Técnica popularizada por Vision Transformer (ViT) onde uma imagem é dividida em uma grade de patches não sobrepostos, cada um sendo então linearizado e projetado em um vetor de embedding para ser tratado como um token.
← Voltar