Audio Generation avec Diffusion

📖

termes

Encodeur Audio

Module, souvent basé sur un VQ-VAE ou un autoencodeur, qui compresse une forme d'onde audio brute en une représentation latente de plus faible dimension, plus adaptée pour être traitée par le processus de diffusion.

📖

termes

Décodeur Audio

Réseau neuronal qui reconstruit une forme d'onde audio audible à partir de la représentation latente débruitée produite par le modèle de diffusion, finalisant ainsi le processus de génération.

📖

termes

Pas de Temps (Timestep) de Diffusion

Variable discrète représentant une étape spécifique dans le processus de bruitage ou de débruitage, contrôlant le niveau de bruit appliqué et guidant le modèle à travers la transformation du bruit pur en signal audio cohérent.

📖

termes

Inférence Guidée par Classifier

Méthode d'inférence qui utilise un classificateur pré-entraîné pour guider le processus de débruitage vers une sortie appartenant à une classe spécifique (par exemple, 'voix masculine', 'piano'), sans modifier les poids du modèle de diffusion.

📖

termes

Modèle de Diffusion à Débit Constant (Consistency Model)

Famille de modèles de diffusion conçus pour générer des échantillons de haute qualité en une seule étape ou en très peu d'étapes, en apprenant à maintenir la cohérence entre les différents niveaux de bruit, réduisant ainsi drastiquement le temps d'inférence.

📖

termes

Planner de Vélocité

Stratégie de planification pour le processus de débruitage qui détermine la séquence des pas de temps (timesteps) à utiliser lors de l'inférence, optimisant le compromis entre la qualité du son généré et le nombre d'étapes de calcul requises.

📖

termes

Audio à Haute Résolution

Objectif des modèles de diffusion audio avancés, visant à générer des formes d'onde avec des taux d'échantillonnage élevés (ex: 48kHz) et une grande profondeur de bits (ex: 24-bit), approchant ou dépassant la qualité des enregistrements professionnels.

📖

termes

Modèle de Diffusion Stochastique

Approche de diffusion où le processus de débruitage inclut une composante aléatoire à chaque étape, permettant une plus grande diversité et créativité dans les générations audio, au prix d'une reproductibilité plus faible.

📖

termes

Modèle de Diffusion Déterministe

Variante du processus de diffusion où le débruitage suit une trajectoire prévisible et sans aléas, ce qui favorise la cohérence et la stabilité des résultats pour une même entrée, souvent utilisé pour des applications de re-synthèse précise.

📖

termes

Modèle de Diffusion de Parole (Speech Diffusion Model)

Spécialisation des modèles de diffusion audio entraînés exclusivement sur des données de parole, visant à générer des voix naturelles et expressives avec un contrôle fin sur le locuteur, l'intonation et l'émotion.

📖

termes

Modèle de Diffusion Musicale (Music Diffusion Model)

Application de la diffusion à la génération musicale, où le modèle apprend les structures harmoniques, rythmiques et mélodiques pour composer des morceaux de musique entiers ou des samples instrumentaux cohérents.

📖

termes

Échantillonnage à Échelle Linéaire (Linear Sampling)

Stratégie d'inférence où les pas de temps de débruitage sont espacés de manière uniforme sur la timeline du processus, une approche simple mais parfois sous-optimale pour la qualité audio finale.

📖

termes

Échantillonnage à Échelle Logarithmique (Log-Sampling)

Stratégie d'inférence qui concentre les étapes de débruitage au début du processus (quand le signal est très bruité) et les espace vers la fin, ce qui s'est avéré plus efficace pour capturer les structures audio de basse fréquence.

Glossaire IA

Encodeur Audio

Décodeur Audio

Pas de Temps (Timestep) de Diffusion

Inférence Guidée par Classifier

Modèle de Diffusion à Débit Constant (Consistency Model)

Planner de Vélocité

Audio à Haute Résolution

Modèle de Diffusion Stochastique

Modèle de Diffusion Déterministe

Modèle de Diffusion de Parole (Speech Diffusion Model)

Modèle de Diffusion Musicale (Music Diffusion Model)

Échantillonnage à Échelle Linéaire (Linear Sampling)

Échantillonnage à Échelle Logarithmique (Log-Sampling)

Aucun résultat trouvé