Tradução Multimodal
Legenda de Imagem
Geração automática de descrições textuais que descrevem o conteúdo de imagens, combinando visão computacional e processamento de linguagem natural. Os modelos modernos utilizam codificadores CNN ou ViT e decodificadores transformer.
← Voltar