Generación de audio con difusión

📖

términos

Codificador de audio

Módulo, a menudo basado en un VQ-VAE o un autoencoder, que comprime una forma de onda de audio cruda en una representación latente de menor dimensión, más adecuada para ser procesada por el proceso de difusión.

📖

términos

Decodificador de audio

Red neuronal que reconstruye una forma de onda de audio audible a partir de la representación latente sin ruido producida por el modelo de difusión, finalizando así el proceso de generación.

📖

términos

Paso de tiempo (Timestep) de difusión

Variable discreta que representa una etapa específica en el proceso de añadir ruido o eliminación de ruido, controlando el nivel de ruido aplicado y guiando al modelo a través de la transformación del ruido puro en una señal de audio coherente.

📖

términos

Inferencia guiada por clasificador

Método de inferencia que utiliza un clasificador preentrenado para guiar el proceso de eliminación de ruido hacia una salida que pertenezca a una clase específica (por ejemplo, 'voz masculina', 'piano'), sin modificar los pesos del modelo de difusión.

📖

términos

Modelo de difusión de consistencia (Consistency Model)

Familia de modelos de difusión diseñados para generar muestras de alta calidad en un solo paso o en muy pocos pasos, aprendiendo a mantener la coherencia entre los diferentes niveles de ruido, reduciendo así drásticamente el tiempo de inferencia.

📖

términos

Planificador de velocidad

Estrategia de planificación para el proceso de eliminación de ruido que determina la secuencia de pasos de tiempo (timesteps) a utilizar durante la inferencia, optimizando el equilibrio entre la calidad del sonido generado y el número de pasos de cálculo requeridos.

📖

términos

Audio de alta resolución

Objetivo de los modelos de difusión de audio avanzados, que busca generar formas de onda con altas tasas de muestreo (ej: 48kHz) y una gran profundidad de bits (ej: 24-bit), acercándose o superando la calidad de las grabaciones profesionales.

📖

términos

Modelo de difusión estocástico

Enfoque de difusión donde el proceso de eliminación de ruido incluye un componente aleatorio en cada paso, permitiendo una mayor diversidad y creatividad en las generaciones de audio, a costa de una menor reproducibilidad.

📖

términos

Modelo de Difusión Determinista

Variante del proceso de difusión donde la eliminación de ruido sigue una trayectoria predecible y sin aleatoriedad, lo que favorece la coherencia y la estabilidad de los resultados para una misma entrada, a menudo utilizado para aplicaciones de resíntesis precisa.

📖

términos

Modelo de Difusión de Voz (Speech Diffusion Model)

Especialización de los modelos de difusión de audio entrenados exclusivamente con datos de voz, que tiene como objetivo generar voces naturales y expresivas con un control preciso sobre el hablante, la entonación y la emoción.

📖

términos

Modelo de Difusión Musical (Music Diffusion Model)

Aplicación de la difusión a la generación musical, donde el modelo aprende las estructuras armónicas, rítmicas y melódicas para componer piezas musicales completas o muestras instrumentales coherentes.

📖

términos

Muestreo a Escala Lineal (Linear Sampling)

Estrategia de inferencia donde los pasos de tiempo de eliminación de ruido están espaciados de manera uniforme en la línea de tiempo del proceso, un enfoque simple pero a veces subóptimo para la calidad de audio final.

📖

términos

Muestreo a Escala Logarítmica (Log-Sampling)

Estrategia de inferencia que concentra las etapas de eliminación de ruido al principio del proceso (cuando la señal es muy ruidosa) y las espacia hacia el final, lo que ha resultado más eficaz para capturar las estructuras de audio de baja frecuencia.

Glosario IA

Codificador de audio

Decodificador de audio

Paso de tiempo (Timestep) de difusión

Inferencia guiada por clasificador

Modelo de difusión de consistencia (Consistency Model)

Planificador de velocidad

Audio de alta resolución

Modelo de difusión estocástico

Modelo de Difusión Determinista

Modelo de Difusión de Voz (Speech Diffusion Model)

Modelo de Difusión Musical (Music Diffusion Model)

Muestreo a Escala Lineal (Linear Sampling)

Muestreo a Escala Logarítmica (Log-Sampling)

No se encontraron resultados