Transformadores Multi-Modais
Embedding de Modalidade
Vetores de codificação específicos adicionados aos embeddings de tokens para indicar a modalidade de origem (texto, imagem, áudio), permitindo que o Transformer distinga e processe diferentemente cada tipo de dado.
← Voltar