Glosario IA
El diccionario completo de la Inteligencia Artificial
Codificador de audio
Módulo, a menudo basado en un VQ-VAE o un autoencoder, que comprime una forma de onda de audio cruda en una representación latente de menor dimensión, más adecuada para ser procesada por el proceso de difusión.
Decodificador de audio
Red neuronal que reconstruye una forma de onda de audio audible a partir de la representación latente sin ruido producida por el modelo de difusión, finalizando así el proceso de generación.
Paso de tiempo (Timestep) de difusión
Variable discreta que representa una etapa específica en el proceso de añadir ruido o eliminación de ruido, controlando el nivel de ruido aplicado y guiando al modelo a través de la transformación del ruido puro en una señal de audio coherente.
Inferencia guiada por clasificador
Método de inferencia que utiliza un clasificador preentrenado para guiar el proceso de eliminación de ruido hacia una salida que pertenezca a una clase específica (por ejemplo, 'voz masculina', 'piano'), sin modificar los pesos del modelo de difusión.
Modelo de difusión de consistencia (Consistency Model)
Familia de modelos de difusión diseñados para generar muestras de alta calidad en un solo paso o en muy pocos pasos, aprendiendo a mantener la coherencia entre los diferentes niveles de ruido, reduciendo así drásticamente el tiempo de inferencia.
Planificador de velocidad
Estrategia de planificación para el proceso de eliminación de ruido que determina la secuencia de pasos de tiempo (timesteps) a utilizar durante la inferencia, optimizando el equilibrio entre la calidad del sonido generado y el número de pasos de cálculo requeridos.
Audio de alta resolución
Objetivo de los modelos de difusión de audio avanzados, que busca generar formas de onda con altas tasas de muestreo (ej: 48kHz) y una gran profundidad de bits (ej: 24-bit), acercándose o superando la calidad de las grabaciones profesionales.
Modelo de difusión estocástico
Enfoque de difusión donde el proceso de eliminación de ruido incluye un componente aleatorio en cada paso, permitiendo una mayor diversidad y creatividad en las generaciones de audio, a costa de una menor reproducibilidad.
Modelo de Difusión Determinista
Variante del proceso de difusión donde la eliminación de ruido sigue una trayectoria predecible y sin aleatoriedad, lo que favorece la coherencia y la estabilidad de los resultados para una misma entrada, a menudo utilizado para aplicaciones de resíntesis precisa.
Modelo de Difusión de Voz (Speech Diffusion Model)
Especialización de los modelos de difusión de audio entrenados exclusivamente con datos de voz, que tiene como objetivo generar voces naturales y expresivas con un control preciso sobre el hablante, la entonación y la emoción.
Modelo de Difusión Musical (Music Diffusion Model)
Aplicación de la difusión a la generación musical, donde el modelo aprende las estructuras armónicas, rítmicas y melódicas para componer piezas musicales completas o muestras instrumentales coherentes.
Muestreo a Escala Lineal (Linear Sampling)
Estrategia de inferencia donde los pasos de tiempo de eliminación de ruido están espaciados de manera uniforme en la línea de tiempo del proceso, un enfoque simple pero a veces subóptimo para la calidad de audio final.
Muestreo a Escala Logarítmica (Log-Sampling)
Estrategia de inferencia que concentra las etapas de eliminación de ruido al principio del proceso (cuando la señal es muy ruidosa) y las espacia hacia el final, lo que ha resultado más eficaz para capturar las estructuras de audio de baja frecuencia.