Vision Transformers (ViT)
Rotulagem de Tokens
Estratégia de treinamento onde cada patch recebe um rótulo supervisionado em vez de um único rótulo por imagem, forçando o modelo a aprender representações mais ricas e localizadas.
← Voltar