QA Multimodal
Tokenização de Imagem
Processo de conversão de uma imagem numa sequência de tokens discretos, frequentemente através de um VAE ou VQ-VAE, para a tornar compatível com arquiteturas do tipo Transformer.
← Voltar