QA Multimodal
Tokenización de Imagen
Proceso de conversión de una imagen en una secuencia de tokens discretos, a menudo a través de un VAE o un VQ-VAE, para hacerla compatible con las arquitecturas de tipo Transformer.
← Volver