Multi-Modal Transformers
Transformer Visión-Lenguaje
Arquitectura Transformer específicamente diseñada para comprender y generar conjuntamente contenido visual y textual, utilizando codificadores compartidos o separados para cada modalidad.
← Volver