基于扩散的音频生成

📖

術語

Encodeur Audio

Module, souvent basé sur un VQ-VAE ou un autoencodeur, qui compresse une forme d'onde audio brute en une représentation latente de plus faible dimension, plus adaptée pour être traitée par le processus de diffusion.

📖

術語

Décodeur Audio

Réseau neuronal qui reconstruit une forme d'onde audio audible à partir de la représentation latente débruitée produite par le modèle de diffusion, finalisant ainsi le processus de génération.

📖

術語

Pas de Temps (Timestep) de Diffusion

Variable discrète représentant une étape spécifique dans le processus de bruitage ou de débruitage, contrôlant le niveau de bruit appliqué et guidant le modèle à travers la transformation du bruit pur en signal audio cohérent.

📖

術語

Inférence Guidée par Classifier

Méthode d'inférence qui utilise un classificateur pré-entraîné pour guider le processus de débruitage vers une sortie appartenant à une classe spécifique (par exemple, 'voix masculine', 'piano'), sans modifier les poids du modèle de diffusion.

📖

術語

Modèle de Diffusion à Débit Constant (Consistency Model)

Famille de modèles de diffusion conçus pour générer des échantillons de haute qualité en une seule étape ou en très peu d'étapes, en apprenant à maintenir la cohérence entre les différents niveaux de bruit, réduisant ainsi drastiquement le temps d'inférence.

📖

術語

Planner de Vélocité

Stratégie de planification pour le processus de débruitage qui détermine la séquence des pas de temps (timesteps) à utiliser lors de l'inférence, optimisant le compromis entre la qualité du son généré et le nombre d'étapes de calcul requises.

📖

術語

Audio à Haute Résolution

Objectif des modèles de diffusion audio avancés, visant à générer des formes d'onde avec des taux d'échantillonnage élevés (ex: 48kHz) et une grande profondeur de bits (ex: 24-bit), approchant ou dépassant la qualité des enregistrements professionnels.

📖

術語

Modèle de Diffusion Stochastique

Approche de diffusion où le processus de débruitage inclut une composante aléatoire à chaque étape, permettant une plus grande diversité et créativité dans les générations audio, au prix d'une reproductibilité plus faible.

📖

術語

Modèle de Diffusion Déterministe

Variante du processus de diffusion où le débruitage suit une trajectoire prévisible et sans aléas, ce qui favorise la cohérence et la stabilité des résultats pour une même entrée, souvent utilisé pour des applications de re-synthèse précise.

📖

術語

Modèle de Diffusion de Parole (Speech Diffusion Model)

Spécialisation des modèles de diffusion audio entraînés exclusivement sur des données de parole, visant à générer des voix naturelles et expressives avec un contrôle fin sur le locuteur, l'intonation et l'émotion.

📖

術語

Modèle de Diffusion Musicale (Music Diffusion Model)

Application de la diffusion à la génération musicale, où le modèle apprend les structures harmoniques, rythmiques et mélodiques pour composer des morceaux de musique entiers ou des samples instrumentaux cohérents.

📖

術語

Échantillonnage à Échelle Linéaire (Linear Sampling)

Stratégie d'inférence où les pas de temps de débruitage sont espacés de manière uniforme sur la timeline du processus, une approche simple mais parfois sous-optimale pour la qualité audio finale.

📖

術語

Échantillonnage à Échelle Logarithmique (Log-Sampling)

Stratégie d'inférence qui concentre les étapes de débruitage au début du processus (quand le signal est très bruité) et les espace vers la fin, ce qui s'est avéré plus efficace pour capturer les structures audio de basse fréquence.

AI 詞彙表