Transformers de Áudio
VALL-E
Modelo de síntese de fala neural codec language utilizando Transformers para gerar fala de alta qualidade a partir de prompts de voz de 3 segundos.
← VoltarModelo de síntese de fala neural codec language utilizando Transformers para gerar fala de alta qualidade a partir de prompts de voz de 3 segundos.
← Voltar