QA Multimodal - Glossário IA

📖

termos

Cross-modalidade

Capacidade de um sistema de compreender e relacionar informações provenientes de diferentes modalidades, como texto e imagens, para enriquecer a compreensão contextual.

📖

termos

Transformer Visão-Linguagem (VLT)

Arquitetura Transformer pré-treinada em vastos corpora de imagens e textos pareados, projetada para tarefas de compreensão e geração multimodais.

📖

termos

Raciocínio Visual

Capacidade de um sistema de QA de deduzir informações não explícitas analisando as relações espaciais, os atributos de objetos ou cenas complexas em uma imagem.

📖

termos

Aterramento Visual

Ação de ancorar conceitos linguísticos (palavras, frases) a entidades ou regiões específicas em uma imagem ou vídeo, criando um elo semântico tangível.

📖

termos

Alinhamento Modalidade-a-Modalidade

Processo de aprendizado que mapeia os segmentos de uma modalidade (ex: uma frase) com os segmentos relevantes de outra (ex: uma área de imagem).

📖

termos

Codebook Vetorial Quantizado (VQ)

Técnica utilizada em modelos multimodais para discretizar representações contínuas (ex: de imagens) em um conjunto finito de tokens discretos, facilitando seu processamento por modelos de linguagem.

📖

termos

Perceptron Multimodal (MLP)

Rede neural, frequentemente um MLP, que recebe como entrada as características fusionadas de várias modalidades para realizar uma tarefa de classificação ou regressão final.

📖

termos

Modelo de Fusão de Dois Fluxos

Arquitetura onde cada modalidade é processada por uma rede neural distinta (um fluxo) antes que suas representações sejam combinadas para uma tomada de decisão comum.

📖

termos

Recuperação de Informação Multimodal

Tarefa que consiste em encontrar documentos (ex: imagens) relevantes a partir de uma consulta noutra modalidade (ex: texto), com base na sua similaridade num espaço de embedding partilhado.

📖

termos

Geração de Resposta Condicional

Processo onde um modelo de linguagem gera uma resposta textual cujo conteúdo é condicionado e guiado por informações extraídas de uma modalidade não textual, como uma imagem.

📖

termos

Tokenização de Imagem

Processo de conversão de uma imagem numa sequência de tokens discretos, frequentemente através de um VAE ou VQ-VAE, para a tornar compatível com arquiteturas do tipo Transformer.

Glossário IA

Cross-modalidade

Transformer Visão-Linguagem (VLT)

Raciocínio Visual

Aterramento Visual

Alinhamento Modalidade-a-Modalidade

Codebook Vetorial Quantizado (VQ)

Perceptron Multimodal (MLP)

Modelo de Fusão de Dois Fluxos

Recuperação de Informação Multimodal

Geração de Resposta Condicional

Tokenização de Imagem

Nenhum resultado encontrado