Glossário IA
O dicionário completo da Inteligência Artificial
Síntese de Texto para Imagem
Geração de imagens fotorrealistas ou estilizadas a partir de descrições textuais usando modelos generativos como GANs ou modelos de difusão. Esses modelos compreendem a semântica do texto para criar visuais coerentes e detalhados.
Tradução de Imagem para Texto
Conversão automática do conteúdo visual de imagens em descrições textuais descritivas usando modelos de visão-linguagem. Esta tecnologia suporta aplicações como legendagem automática e acessibilidade visual.
Modelos de Difusão
Modelos generativos que aprendem a remover ruído progressivamente dos dados para gerar amostras de alta qualidade, particularmente eficazes para a síntese de imagens a partir de texto. Esses modelos utilizam processos de difusão forward e reverse para a geração.
Transformers Multimodais
Arquitetura transformer adaptada para processar simultaneamente múltiplas modalidades de dados (texto, imagem, áudio) através de mecanismos de atenção cross-modal. Esses modelos unificam a representação e o processamento de dados heterogêneos.
Modelos de Visão-Linguagem
Modelos de IA projetados para compreender e gerar conteúdo combinando informações visuais e linguísticas, como ViT, BLIP ou ALIGN. Eles aprendem representações conjuntas através de pré-treinamento em vastos corpora imagem-texto.
Embeddings Multimodais
Representações vetoriais em um espaço compartilhado onde diferentes modalidades (texto, imagem, áudio) podem ser comparadas e manipuladas matematicamente. Esses embeddings permitem operações semânticas cross-modais como busca e similaridade.
Geração de Texto para Vídeo
Geração de sequências de vídeo coerentes a partir de descrições textuais, modelando tanto o conteúdo espacial quanto a dinâmica temporal. Esses modelos combinam compreensão da linguagem natural e geração de vídeo quadro a quadro.
Legenda de Imagem
Geração automática de descrições textuais que descrevem o conteúdo de imagens, combinando visão computacional e processamento de linguagem natural. Os modelos modernos utilizam codificadores CNN ou ViT e decodificadores transformer.
Visual Question Answering
Sistema que responde a perguntas textuais sobre o conteúdo de imagens, exigindo uma compreensão conjunta de visão e linguagem. VQA combina detecção de objetos, raciocínio espacial e compreensão linguística.
Fusão Multimodal
Integração de informações provenientes de diferentes modalidades para criar uma representação unificada e mais rica do que cada modalidade separadamente. As estratégias incluem fusão precoce (early fusion), fusão tardia (late fusion) e fusão baseada em atenção (attention-based fusion).
Transferência de Estilo Neural
Técnica de deep learning que separa e recombina o conteúdo e o estilo de imagens para criar obras de arte digitais. Ela utiliza redes neurais convolucionais para capturar as características estilísticas e de conteúdo.
Síntese de Fala a Partir de Texto
Conversão de texto escrito em fala humana natural utilizando redes neurais profundas como Tacotron ou WaveNet. Os sistemas modernos geram formas de onda diretamente ou via espectrogramas intermediários.
Transcrição de Fala para Texto
Conversão automática da fala em texto escrito utilizando modelos end-to-end como transformers ou conformers. Esses sistemas transformam os sinais de áudio em sequências de caracteres ou palavras.
Aprendizagem Audiovisual
Aprendizagem automática que combina simultaneamente informações de áudio e vídeo para melhorar a compreensão de cenas multimodais. Essa abordagem explora a correlação natural entre sons e eventos visuais.
Alinhamento Multimodal
Processo de aprendizagem de correspondências semânticas entre diferentes modalidades em um espaço de representação comum. O alinhamento é crucial para tarefas de tradução cross-modal e de recuperação (retrieval).