Multi-Modal Transformers
BLIP
Framework Bootstrapping Language-Image Pre-training que genera pseudo-leyendas para filtrar el ruido y mejorar la calidad de los datos, utilizando un codificador multimodal y un decodificador imagen-texto.
← Volver