Multi-Modal Transformers
GIT
Modelo Generative Image-to-text Transformer que trata las imágenes como un idioma extranjero y utiliza una arquitectura simple de codificador-decodificador para la descripción de imágenes y VQA con rendimiento de última generación.
← Volver