Transformadores Multimodales
ALBEF (Align Before Fuse)
Modelo de visión-lenguaje que utiliza un preentrenamiento contrastivo para alinear las representaciones de texto e imagen antes de fusionarlas mediante capas Transformer de co-atención, mejorando la calidad de la interacción.
← Volver