Glossário IA
O dicionário completo da Inteligência Artificial
Pré-treinamento Visão-Linguagem
Abordagem de aprendizado auto-supervisionado onde os modelos são pré-treinados em vastos corpora de imagens e textos associados. Estabelece correspondências fundamentais entre conceitos visuais e descrições linguísticas antes do fine-tuning.
Aprendizado de Representação Conjunta
Processo de aprendizado simultâneo de características compartilhadas entre múltiplas modalidades para criar uma representação unificada. Captura as correlações e complementaridades intermodais em um vetor único.
Fusão Modal
Integração estratégica de informações provenientes de diferentes modalidades para criar uma representação enriquecida e coerente. Combina eficazmente as forças respectivas de cada modalidade em uma saída unificada.
Aterramento (Grounding)
Processo de associação de conceitos abstratos (frequentemente textuais) a elementos concretos em outra modalidade (tipicamente visual). Estabelece ligações diretas entre palavras e regiões ou objetos específicos nas imagens.
Perda de Alinhamento
Função de perda especificamente projetada para otimizar a correspondência semântica entre elementos de modalidades diferentes. Guia o aprendizado em direção a um alinhamento ótimo no espaço de representação compartilhado.
Consistência Semântica
Princípio que garante que as representações multimodais preservem um sentido coerente através das diferentes modalidades. Assegura que elementos semanticamente equivalentes compartilhem características semelhantes.
Pré-treinamento Multimodal
Fase de inicialização dos pesos de um modelo multimodal em dados massivos não anotados. Desenvolve capacidades fundamentais de alinhamento antes da adaptação a tarefas específicas.
Métricas de Alinhamento Modal
Indicadores quantitativos que avaliam a qualidade da correspondência entre representações de diferentes modalidades. Medem a precisão e a coerência semântica dos alinhamentos aprendidos.
Alinhamento Fracamente Supervisionado
Abordagem de aprendizado que utiliza anotações parciais ou ruidosas para alinhar as modalidades. Reduz a dependência de dados rotulados, mantendo, ao mesmo tempo, um desempenho de alinhamento razoável.
Aprendizado Multimodal Auto-supervisionado
Paradigma onde o modelo aprende automaticamente alinhamentos explorando as correlações naturais entre modalidades não anotadas. Gera sinais de aprendizado intrínsecos a partir da estrutura multimodal dos dados.