Modelos Multimodales
Modelado Visión-Lenguaje (VLM)
Subclase de modelos multimodales especializados en la comprensión conjunta de texto e imágenes, capaces de tareas como el subtitulado de imágenes, el razonamiento visual o la generación de imágenes a partir de texto.
← Volver