Glosario IA
El diccionario completo de la Inteligencia Artificial
Audio Transformer
Arquitectura Transformer adaptada para el procesamiento de señales de audio utilizando mecanismos de atención sobre representaciones temporales o freqúmicas de los datos de audio.
Spectrogram Transformer
Variante de Transformer que opera directamente sobre espectrogramas dividiéndolos en parches tratados como secuencias de embeddings para clasificación de audio.
Wav2Vec 2.0
Modelo de aprendizaje autosupervisado para representación de voz utilizando una arquitectura Transformer con enmascaramiento cuantificado sobre formas de onda brutas.
Whisper
Modelo Transformer robusto para reconocimiento de voz y traducción speech-to-text entrenado con 680k horas de datos de audio transcritos con supervisión débil.
AudioLM
Modelo similar al lenguaje para generación de audio utilizando Transformers jerárquicos sobre representaciones acústicas y semánticas discretas.
Encodec
Codificador neuronal basado en Transformer con cuantificación residual para compresión y reconstrucción de audio de alta fidelidad.
VALL-E
Modelo de síntesis de voz neural codec similar al lenguaje que utiliza Transformers para generar voz de alta calidad a partir de prompts de voz de 3 segundos.
Wav2Vec-U
Enfoque no supervisado para ASR utilizando modelos wav2vec 2.0 preentrenados sin transcripción, aprovechando los alineamientos fonéticos implícitos.
MusicGen
Modelo Transformer condicional para la generación musical utilizando tokenizadores de audio y controlable por descripciones textuales o melodías.
MERT
Music Envelope Representation Transformer, modelo preentrenado autosupervisado para la comprensión musical utilizando representaciones multi-escala.
Spec2Vec
Arquitectura Transformer que convierte espectrogramas en embeddings vectoriales para tareas de clasificación y recuperación de audio.