Glossário IA
O dicionário completo da Inteligência Artificial
Cross-modalidade
Capacidade de um sistema de compreender e relacionar informações provenientes de diferentes modalidades, como texto e imagens, para enriquecer a compreensão contextual.
Transformer Visão-Linguagem (VLT)
Arquitetura Transformer pré-treinada em vastos corpora de imagens e textos pareados, projetada para tarefas de compreensão e geração multimodais.
Raciocínio Visual
Capacidade de um sistema de QA de deduzir informações não explícitas analisando as relações espaciais, os atributos de objetos ou cenas complexas em uma imagem.
Aterramento Visual
Ação de ancorar conceitos linguísticos (palavras, frases) a entidades ou regiões específicas em uma imagem ou vídeo, criando um elo semântico tangível.
Alinhamento Modalidade-a-Modalidade
Processo de aprendizado que mapeia os segmentos de uma modalidade (ex: uma frase) com os segmentos relevantes de outra (ex: uma área de imagem).
Codebook Vetorial Quantizado (VQ)
Técnica utilizada em modelos multimodais para discretizar representações contínuas (ex: de imagens) em um conjunto finito de tokens discretos, facilitando seu processamento por modelos de linguagem.
Perceptron Multimodal (MLP)
Rede neural, frequentemente um MLP, que recebe como entrada as características fusionadas de várias modalidades para realizar uma tarefa de classificação ou regressão final.
Modelo de Fusão de Dois Fluxos
Arquitetura onde cada modalidade é processada por uma rede neural distinta (um fluxo) antes que suas representações sejam combinadas para uma tomada de decisão comum.
Recuperação de Informação Multimodal
Tarefa que consiste em encontrar documentos (ex: imagens) relevantes a partir de uma consulta noutra modalidade (ex: texto), com base na sua similaridade num espaço de embedding partilhado.
Geração de Resposta Condicional
Processo onde um modelo de linguagem gera uma resposta textual cujo conteúdo é condicionado e guiado por informações extraídas de uma modalidade não textual, como uma imagem.
Tokenização de Imagem
Processo de conversão de uma imagem numa sequência de tokens discretos, frequentemente através de um VAE ou VQ-VAE, para a tornar compatível com arquiteturas do tipo Transformer.