Geração de Áudio com Difusão

📖

termos

Codificador de Áudio

Módulo, frequentemente baseado em um VQ-VAE ou um autoencoder, que comprime uma forma de onda de áudio bruta em uma representação latente de menor dimensão, mais adequada para ser processada pelo processo de difusão.

📖

termos

Decodificador de Áudio

Rede neural que reconstrói uma forma de onda de áudio audível a partir da representação latente sem ruído produzida pelo modelo de difusão, finalizando assim o processo de geração.

📖

termos

Passo de Tempo (Timestep) de Difusão

Variável discreta que representa uma etapa específica no processo de adição ou remoção de ruído, controlando o nível de ruído aplicado e guiando o modelo através da transformação do ruído puro em um sinal de áudio coerente.

📖

termos

Inferência Guiada por Classificador

Método de inferência que utiliza um classificador pré-treinado para guiar o processo de remoção de ruído em direção a uma saída pertencente a uma classe específica (por exemplo, 'voz masculina', 'piano'), sem modificar os pesos do modelo de difusão.

📖

termos

Modelo de Difusão de Consistência (Consistency Model)

Família de modelos de difusão projetados para gerar amostras de alta qualidade em uma única etapa ou em muito poucas etapas, aprendendo a manter a consistência entre os diferentes níveis de ruído, reduzindo drasticamente o tempo de inferência.

📖

termos

Planejador de Velocidade

Estratégia de planejamento para o processo de remoção de ruído que determina a sequência dos passos de tempo (timesteps) a serem usados durante a inferência, otimizando o compromisso entre a qualidade do som gerado e o número de etapas de cálculo necessárias.

📖

termos

Áudio de Alta Resolução

Objetivo dos modelos de difusão de áudio avançados, visando gerar formas de onda com altas taxas de amostragem (ex: 48kHz) e grande profundidade de bits (ex: 24-bit), aproximando ou superando a qualidade das gravações profissionais.

📖

termos

Modelo de Difusão Estocástica

Abordagem de difusão onde o processo de remoção de ruído inclui um componente aleatório em cada etapa, permitindo maior diversidade e criatividade nas gerações de áudio, ao custo de menor reprodutibilidade.

📖

termos

Modelo de Difusão Determinístico

Variante do processo de difusão onde a remoção de ruído segue uma trajetória previsível e sem aleatoriedade, o que favorece a coerência e a estabilidade dos resultados para a mesma entrada, frequentemente utilizado para aplicações de ressintetização precisa.

📖

termos

Modelo de Difusão de Fala (Speech Diffusion Model)

Especialização dos modelos de difusão de áudio treinados exclusivamente em dados de fala, visando gerar vozes naturais e expressivas com controle fino sobre o locutor, a entonação e a emoção.

📖

termos

Modelo de Difusão Musical (Music Diffusion Model)

Aplicação da difusão à geração musical, onde o modelo aprende as estruturas harmônicas, rítmicas e melódicas para compor peças musicais inteiras ou samples instrumentais coerentes.

📖

termos

Amostragem em Escala Linear (Linear Sampling)

Estratégia de inferência onde os passos de tempo de remoção de ruído são espaçados de maneira uniforme na linha do tempo do processo, uma abordagem simples mas por vezes subótima para a qualidade de áudio final.

📖

termos

Amostragem em Escala Logarítmica (Log-Sampling)

Estratégia de inferência que concentra as etapas de remoção de ruído no início do processo (quando o sinal está muito ruidoso) e as espaça em direção ao final, o que se mostrou mais eficaz para capturar as estruturas de áudio de baixa frequência.

Glossário IA

Codificador de Áudio

Decodificador de Áudio

Passo de Tempo (Timestep) de Difusão

Inferência Guiada por Classificador

Modelo de Difusão de Consistência (Consistency Model)

Planejador de Velocidade

Áudio de Alta Resolução

Modelo de Difusão Estocástica

Modelo de Difusão Determinístico

Modelo de Difusão de Fala (Speech Diffusion Model)

Modelo de Difusão Musical (Music Diffusion Model)

Amostragem em Escala Linear (Linear Sampling)

Amostragem em Escala Logarítmica (Log-Sampling)

Nenhum resultado encontrado