Vision Transformers (ViT)
DeiT (Transformer de Imagem Eficiente em Dados)
Variante do ViT treinável com quantidades de dados mais modestas através de uma estratégia de destilação de conhecimento onde um token de destilação é adicionado para aprender de um professor CNN.
← Voltar