Transformadores Multi-Modais
BLIP
Framework Bootstrapping Language-Image Pre-training gerando pseudo-legendas para filtrar o ruído e melhorar a qualidade dos dados, usando um codificador multimodal e um decodificador imagem-texto.
← Voltar