Transformers para Áudio
Cross-Attention Áudio-Texto
Um mecanismo de atenção onde as consultas vêm de uma modalidade (ex: texto) e as chaves/valores de outra (ex: áudio), fundamental para modelos de reconhecimento de fala e narração de áudio.
← Voltar