Glossário IA
O dicionário completo da Inteligência Artificial
Audio Transformer
Arquitetura Transformer adaptada para o processamento de sinais de áudio, utilizando mecanismos de atenção em representações temporais ou de frequência dos dados de áudio.
Spectrogram Transformer
Variante de Transformer operando diretamente em espectrogramas, dividindo-os em patches tratados como sequências de embeddings para classificação de áudio.
Wav2Vec 2.0
Modelo de aprendizagem auto-supervisionada para representação de fala, utilizando uma arquitetura Transformer com mascaramento quantificado em formas de onda brutas.
Whisper
Modelo Transformer robusto para reconhecimento de fala e tradução speech-to-text, treinado em 680 mil horas de dados de áudio transcritos com supervisão fraca.
AudioLM
Modelo language-like para geração de áudio, utilizando Transformers hierárquicos em representações acústicas e semânticas discretas.
Encodec
Codec neural baseado em Transformer com quantização residual para compressão e reconstrução de áudio de alta fidelidade.
VALL-E
Modelo de síntese de fala neural codec language utilizando Transformers para gerar fala de alta qualidade a partir de prompts de voz de 3 segundos.
Wav2Vec-U
Abordagem não supervisionada para ASR utilizando modelos wav2vec 2.0 pré-treinados sem transcrição, explorando os alinhamentos fonéticos implícitos.
MusicGen
Modelo Transformer condicional para geração musical usando tokenizadores de áudio e controlável por descrições textuais ou melodias.
MERT
Music Envelope Representation Transformer, modelo pré-treinado auto-supervisionado para compreensão musical usando representações multi-escala.
Spec2Vec
Arquitetura Transformer que converte espectrogramas em embeddings vetoriais para tarefas de classificação e recuperação de áudio.