Transformers Multimodais
Oscar (Object-Semantics Aligned Pre-training)
Abordagem de pré-treinamento que introduz rótulos de objetos detectados como âncoras semânticas para alinhar texto e imagens, melhorando significativamente a compreensão multimodal.
← Voltar