Transformers para Áudio
Codificação Posicional 2D para Espectrogramas
Uma técnica de codificação posicional que codifica informações espaciais (tempo e frequência) para tokens extraídos de espectrogramas, permitindo ao Transformer compreender a estrutura 2D do sinal de áudio.
← Voltar