基于扩散的音频生成

📖

个术语

Encodeur Audio

Module, souvent basé sur un VQ-VAE ou un autoencodeur, qui compresse une forme d'onde audio brute en une représentation latente de plus faible dimension, plus adaptée pour être traitée par le processus de diffusion.

📖

个术语

Décodeur Audio

Réseau neuronal qui reconstruit une forme d'onde audio audible à partir de la représentation latente débruitée produite par le modèle de diffusion, finalisant ainsi le processus de génération.

📖

个术语

Pas de Temps (Timestep) de Diffusion

Variable discrète représentant une étape spécifique dans le processus de bruitage ou de débruitage, contrôlant le niveau de bruit appliqué et guidant le modèle à travers la transformation du bruit pur en signal audio cohérent.

📖

个术语

Inférence Guidée par Classifier

Méthode d'inférence qui utilise un classificateur pré-entraîné pour guider le processus de débruitage vers une sortie appartenant à une classe spécifique (par exemple, 'voix masculine', 'piano'), sans modifier les poids du modèle de diffusion.

📖

个术语

Modèle de Diffusion à Débit Constant (Consistency Model)

Famille de modèles de diffusion conçus pour générer des échantillons de haute qualité en une seule étape ou en très peu d'étapes, en apprenant à maintenir la cohérence entre les différents niveaux de bruit, réduisant ainsi drastiquement le temps d'inférence.

📖

个术语

Planner de Vélocité

Stratégie de planification pour le processus de débruitage qui détermine la séquence des pas de temps (timesteps) à utiliser lors de l'inférence, optimisant le compromis entre la qualité du son généré et le nombre d'étapes de calcul requises.

📖

个术语

Audio à Haute Résolution

Objectif des modèles de diffusion audio avancés, visant à générer des formes d'onde avec des taux d'échantillonnage élevés (ex: 48kHz) et une grande profondeur de bits (ex: 24-bit), approchant ou dépassant la qualité des enregistrements professionnels.

📖

个术语

Modèle de Diffusion Stochastique

Approche de diffusion où le processus de débruitage inclut une composante aléatoire à chaque étape, permettant une plus grande diversité et créativité dans les générations audio, au prix d'une reproductibilité plus faible.

📖

个术语

Modèle de Diffusion Déterministe

Variante du processus de diffusion où le débruitage suit une trajectoire prévisible et sans aléas, ce qui favorise la cohérence et la stabilité des résultats pour une même entrée, souvent utilisé pour des applications de re-synthèse précise.

📖

个术语

Modèle de Diffusion de Parole (Speech Diffusion Model)

Spécialisation des modèles de diffusion audio entraînés exclusivement sur des données de parole, visant à générer des voix naturelles et expressives avec un contrôle fin sur le locuteur, l'intonation et l'émotion.

📖

个术语

Modèle de Diffusion Musicale (Music Diffusion Model)

Application de la diffusion à la génération musicale, où le modèle apprend les structures harmoniques, rythmiques et mélodiques pour composer des morceaux de musique entiers ou des samples instrumentaux cohérents.

📖

个术语

Échantillonnage à Échelle Linéaire (Linear Sampling)

Stratégie d'inférence où les pas de temps de débruitage sont espacés de manière uniforme sur la timeline du processus, une approche simple mais parfois sous-optimale pour la qualité audio finale.

📖

个术语

Échantillonnage à Échelle Logarithmique (Log-Sampling)

Stratégie d'inférence qui concentre les étapes de débruitage au début du processus (quand le signal est très bruité) et les espace vers la fin, ce qui s'est avéré plus efficace pour capturer les structures audio de basse fréquence.

AI 词汇表