Glossário IA
O dicionário completo da Inteligência Artificial
Codificador de Áudio
Módulo, frequentemente baseado em um VQ-VAE ou um autoencoder, que comprime uma forma de onda de áudio bruta em uma representação latente de menor dimensão, mais adequada para ser processada pelo processo de difusão.
Decodificador de Áudio
Rede neural que reconstrói uma forma de onda de áudio audível a partir da representação latente sem ruído produzida pelo modelo de difusão, finalizando assim o processo de geração.
Passo de Tempo (Timestep) de Difusão
Variável discreta que representa uma etapa específica no processo de adição ou remoção de ruído, controlando o nível de ruído aplicado e guiando o modelo através da transformação do ruído puro em um sinal de áudio coerente.
Inferência Guiada por Classificador
Método de inferência que utiliza um classificador pré-treinado para guiar o processo de remoção de ruído em direção a uma saída pertencente a uma classe específica (por exemplo, 'voz masculina', 'piano'), sem modificar os pesos do modelo de difusão.
Modelo de Difusão de Consistência (Consistency Model)
Família de modelos de difusão projetados para gerar amostras de alta qualidade em uma única etapa ou em muito poucas etapas, aprendendo a manter a consistência entre os diferentes níveis de ruído, reduzindo drasticamente o tempo de inferência.
Planejador de Velocidade
Estratégia de planejamento para o processo de remoção de ruído que determina a sequência dos passos de tempo (timesteps) a serem usados durante a inferência, otimizando o compromisso entre a qualidade do som gerado e o número de etapas de cálculo necessárias.
Áudio de Alta Resolução
Objetivo dos modelos de difusão de áudio avançados, visando gerar formas de onda com altas taxas de amostragem (ex: 48kHz) e grande profundidade de bits (ex: 24-bit), aproximando ou superando a qualidade das gravações profissionais.
Modelo de Difusão Estocástica
Abordagem de difusão onde o processo de remoção de ruído inclui um componente aleatório em cada etapa, permitindo maior diversidade e criatividade nas gerações de áudio, ao custo de menor reprodutibilidade.
Modelo de Difusão Determinístico
Variante do processo de difusão onde a remoção de ruído segue uma trajetória previsível e sem aleatoriedade, o que favorece a coerência e a estabilidade dos resultados para a mesma entrada, frequentemente utilizado para aplicações de ressintetização precisa.
Modelo de Difusão de Fala (Speech Diffusion Model)
Especialização dos modelos de difusão de áudio treinados exclusivamente em dados de fala, visando gerar vozes naturais e expressivas com controle fino sobre o locutor, a entonação e a emoção.
Modelo de Difusão Musical (Music Diffusion Model)
Aplicação da difusão à geração musical, onde o modelo aprende as estruturas harmônicas, rítmicas e melódicas para compor peças musicais inteiras ou samples instrumentais coerentes.
Amostragem em Escala Linear (Linear Sampling)
Estratégia de inferência onde os passos de tempo de remoção de ruído são espaçados de maneira uniforme na linha do tempo do processo, uma abordagem simples mas por vezes subótima para a qualidade de áudio final.
Amostragem em Escala Logarítmica (Log-Sampling)
Estratégia de inferência que concentra as etapas de remoção de ruído no início do processo (quando o sinal está muito ruidoso) e as espaça em direção ao final, o que se mostrou mais eficaz para capturar as estruturas de áudio de baixa frequência.