Glosario IA
El diccionario completo de la Inteligencia Artificial
Modelo de Difusión de Audio
Arquitectura de red neuronal generativa que aplica un proceso de difusión y eliminación progresiva de ruido para sintetizar formas de onda de audio de alta fidelidad a partir de un ruido aleatorio inicial.
Espectrograma Condicional
Representación tiempo-frecuencia de la señal de audio utilizada como entrada o condición en los modelos de difusión, donde el proceso iterativo de eliminación de ruido se guía para reconstruir una estructura espectral coherente.
Vocoder Neuronal
Red neuronal que convierte una representación acústica intermedia, como un espectrograma o características melódicas, en una forma de onda de audio continua, a menudo integrada al final de la pipeline de difusión de audio.
Difusión de Voz (Speech Diffusion)
Aplicación especializada de los modelos de difusión para la generación de señales de voz, que busca capturar los matices fonéticos, prosódicos y tímbricos para una síntesis vocal natural.
Difusión Musical (Music Diffusion)
Subdominio de la difusión de audio centrado en la generación de contenido musical, incluyendo armonía, ritmo, melodía y timbre, a menudo condicionado por información estructural como partituras o acordes.
Guía sin Clasificador (Classifier-Free Guidance)
Técnica de inferencia que refuerza la adhesión del modelo de difusión a una condición (texto, melodía, etc.) interpolando entre la predicción condicional y una predicción no condicional, mejorando así la fidelidad y el control de la generación.
Paso de Tiempo de Difusión (Diffusion Timestep)
Variable discreta que representa la etapa del proceso de ruido o eliminación de ruido, que va de 0 (señal pura) a T (ruido puro), que condiciona la red neuronal para predecir el ruido a eliminar en cada iteración.
Espacio Latente de Audio
Representación comprimida y abstracta de datos de audio, obtenida mediante un codificador, en la que se aplica el proceso de difusión para reducir la complejidad computacional preservando la información semántica.
Inpainting de Audio
Tarea de manipulación que consiste en regenerar o completar una sección faltante o corrupta de una señal de audio utilizando un modelo de difusión, basándose en el contexto de audio circundante.
Super-Resolución de Audio
Proceso mediante el cual un modelo de difusión aumenta la calidad o la frecuencia de muestreo de una señal de audio de baja resolución, añadiendo detalles de alta frecuencia plausibles y coherentes.
Codificación Continua de Audio
Método de representación que transforma una forma de onda discreta en un conjunto de vectores continuos en un espacio latente, sirviendo como base para el proceso de difusión en modelos generativos de audio.
Condicionamiento Texto-Audio
Técnica donde un modelo de difusión de audio es guiado por una descripción textual para generar un sonido correspondiente, requiriendo una arquitectura multimodal capaz de alinear las modalidades textuales y auditivas.
Emparejamiento de Puntuación por Ruido (Denoising Score Matching)
Objetivo de entrenamiento fundamental para modelos de difusión, que enseña a la red neuronal a predecir el gradiente (la puntuación) de la distribución de datos con respecto a la entrada ruidosa, permitiendo así el desruido iterativo.
Muestreo Estocástico
Método de inferencia para modelos de difusión donde el desruido en cada etapa incluye un componente aleatorio, favoreciendo la diversidad de generaciones pero pudiendo introducir artefactos.
Muestreo Determinista (DDIM)
Estrategia de inferencia que permite acelerar el proceso de generación realizando menos etapas de desruido de manera determinista, reduciendo la estocasticidad para resultados más reproducibles.
Modelo de Difusión Latente (Latent Diffusion Model)
Variante de modelo de difusión que opera en un espacio latente de menor dimensión, aprendido por un autoencoder, con el fin de hacer el entrenamiento y la inferencia más eficientes para datos de alta resolución como el audio.
Transformadores Convolucionales para Audio
Arquitectura híbrida que combina capas de convolución para capturar patrones locales y mecanismos de atención para dependencias a largo plazo, utilizada frecuentemente como backbone en U-Nets de difusión de audio.
Pipeline de Generación de Audio
Secuencia completa de operaciones, desde la codificación de una condición (texto, melodía) hasta la difusión en el espacio latente y finalmente la decodificación mediante un vocoder, para producir una señal de audio final.
Reescalado de Ruido (Noise Rescaling)
Técnica de ajuste de la varianza del ruido añadido en cada etapa del proceso de difusión, utilizada para estabilizar el entrenamiento y mejorar la calidad de las muestras generadas en modelos de audio.