Glossário IA
O dicionário completo da Inteligência Artificial
Modèle de Diffusion Audio
Architecture de réseau neuronal génératif qui applique un processus de diffusion et de débruitage progressif pour synthétiser des formes d'onde audio à haute fidélité à partir d'un bruit aléatoire initial.
Spectrogramme Conditionnel
Représentation temps-fréquence du signal audio utilisée comme entrée ou condition dans les modèles de diffusion, où le processus itératif de débruitage est guidé pour reconstruire une structure spectrale cohérente.
Vocodeur Neuronal
Réseau neuronal qui convertit une représentation acoustique intermédiaire, telle qu'un spectrogramme ou des caractéristiques mélodiques, en une forme d'onde audio continue, souvent intégré en fin de pipeline de diffusion audio.
Diffusion de Parole (Speech Diffusion)
Application spécialisée des modèles de diffusion pour la génération de signaux de parole, visant à capturer les nuances phonétiques, prosodiques et timbrales pour une synthèse vocale naturelle.
Diffusion Musicale (Music Diffusion)
Sous-domaine de la diffusion audio axé sur la génération de contenu musical, incluant l'harmonie, le rythme, la mélodie et le timbre, souvent conditionnée par des informations structurelles comme des partitions ou des accords.
Guidage par Classificateur (Classifier-Free Guidance)
Technique d'inférence qui renforce l'adhésion du modèle de diffusion à une condition (texte, mélodie, etc.) en interpolant entre la prédiction conditionnelle et une prédiction non conditionnelle, améliorant ainsi la fidélité et le contrôle de la génération.
Pas de Temps de Diffusion (Diffusion Timestep)
Variable discrète représentant le stade du processus de bruitage ou de débruitage, allant de 0 (signal pur) à T (bruit pur), qui conditionne le réseau neuronal pour prédire le bruit à retirer à chaque itération.
Espace Latent Audio
Représentation compressée et abstraite de données audio, obtenue via un encodeur, dans laquelle le processus de diffusion est appliqué pour réduire la complexité computationnelle tout en préservant les informations sémantiques.
Inpainting de Áudio
Tarefa de manipulação que consiste em regenerar ou completar uma seção ausente ou corrompida de um sinal de áudio usando um modelo de difusão, com base no contexto de áudio circundante.
Super-Resolução de Áudio
Processo pelo qual um modelo de difusão aumenta a qualidade ou a frequência de amostragem de um sinal de áudio de baixa resolução, adicionando detalhes de alta frequência plausíveis e coerentes.
Codificação de Áudio Contínua
Método de representação que transforma uma forma de onda discreta em um conjunto de vetores contínuos em um espaço latente, servindo de base para o processo de difusão para modelos generativos de áudio.
Condicionamento Texto-Áudio
Técnica onde um modelo de difusão de áudio é guiado por uma descrição textual para gerar um som correspondente, exigindo uma arquitetura multimodal capaz de alinhar as modalidades textuais e auditivas.
Score Matching por Ruído (Denoising Score Matching)
Objetivo de treinamento fundamental para modelos de difusão, que ensina a rede neural a prever o gradiente (o score) da distribuição de dados em relação à entrada ruidosa, permitindo assim a remoção iterativa de ruído.
Amostragem Estocástica
Método de inferência para modelos de difusão onde a remoção de ruído em cada etapa inclui um componente aleatório, favorecendo a diversidade das gerações, mas podendo introduzir artefatos.
Amostragem Determinística (DDIM)
Estratégia de inferência que permite acelerar o processo de geração realizando menos etapas de remoção de ruído de forma determinística, reduzindo a estocasticidade para resultados mais reprodutíveis.
Modelo de Difusão Latente (Latent Diffusion Model)
Variante de modelo de difusão que opera em um espaço latente de menor dimensão, aprendido por um autoencoder, a fim de tornar o treinamento e a inferência mais eficientes para dados de alta resolução como o áudio.
Transformers Convolucionais para Áudio
Arquitetura híbrida que combina camadas de convolução para capturar padrões locais e mecanismos de atenção para dependências de longo prazo, frequentemente usada como backbone em U-Nets de difusão de áudio.
Pipeline de Geração de Áudio
Sequência completa de operações, desde a codificação de uma condição (texto, melodia) até a difusão no espaço latente e, finalmente, a decodificação por um vocoder, para produzir um sinal de áudio final.
Reescalonamento de Ruído (Noise Rescaling)
Técnica de ajuste da variância do ruído adicionado em cada etapa do processo de difusão, utilizada para estabilizar o treinamento e melhorar a qualidade das amostras geradas em modelos de áudio.