Glossário IA
O dicionário completo da Inteligência Artificial
Modelo de Linguagem-Visão (VLM)
Subclasse de modelos multimodais especializados na compreensão conjunta de texto e imagens, capazes de tarefas como legendagem de imagens, raciocínio visual ou geração de imagens a partir de texto.
Tokenização Visual
Técnica que divide uma imagem em uma sequência de patches ou tokens discretos, frequentemente através de uma rede neural como um Vision Transformer (ViT), para torná-la compatível com a arquitetura dos transformadores textuais.
Modelo de Alinhamento
Modelo, frequentemente baseado em um contrastador como CLIP, treinado em imensos corpus de pares (imagem, texto) para aprender a projetar as duas modalidades em um espaço vetorial compartilhado onde a similaridade de cosseno reflete sua relevância mútua.
Geração Condicional Multimodal
Tarefa de geração onde a saída (ex: texto, imagem) é produzida com base em uma ou mais entradas de diferentes modalidades, como a descrição de uma imagem ou a criação de uma imagem a partir de um texto.
Raciocínio em Cadeia Multimodal
Capacidade de um modelo de usar informações de múltiplas modalidades para construir uma sequência lógica de pensamento e chegar a uma conclusão, por exemplo, analisando um gráfico e um texto para responder a uma pergunta.
Perceptron Multimodal
Conceito teórico ou arquitetura primitiva onde entradas de diferentes naturezas são combinadas, frequentemente por concatenação ou uma operação de fusão, antes de serem processadas por camadas de neurônios totalmente conectados.
Modelo de Difusão Multimodal
Arquitetura de geração que utiliza um processo iterativo de ruído e denoising para criar dados (ex: imagens) condicionados por outra modalidade (ex: uma descrição textual), guiando o denoising com a informação de condicionamento.
Codificação Separada vs. Codificação Unificada
Duas estratégias de arquitetura para modelos multimodais: a codificação separada trata cada modalidade com um codificador dedicado antes da fusão, enquanto a codificação unificada usa um único transformador para processar uma sequência de tokens misturados.
Aprendizagem Zero-Shot Multimodal
Capacidade de um modelo de realizar uma tarefa em uma modalidade (ex: classificar uma imagem) sem ter sido explicitamente treinado para ela, aproveitando o conhecimento transferido de outra modalidade (ex: o texto dos rótulos das classes).
Modelo Áudio-Visão-Texto
Forma avançada de modelo multimodal integrando três fluxos de dados (som, imagem, texto) para tarefas complexas como a descrição de vídeos, onde o modelo deve sincronizar e interpretar as informações visuais e sonoras para produzir uma narração textual.
Projeção Latente
Camada de rede neural, muitas vezes uma simples transformação linear, usada para mapear os vetores de embeddings de cada modalidade em um espaço latente comum antes de sua fusão ou comparação.
Modelo Fundamental Multimodal
Modelo de grande escala, pré-treinado em quantidades massivas de dados heterogêneos, que serve de base para a adaptação (fine-tuning) a uma infinidade de tarefas multimodais específicas.
Modularidade em Modelos Multimodais
Princípio de design onde os codificadores para cada modalidade são módulos distintos e intercambiáveis, permitindo atualizar ou substituir um componente (ex: o codificador de visão) sem retreinar o modelo inteiro.
Prompting Multimodal
Técnica de interação com um modelo onde a entrada (o 'prompt') é composta por várias modalidades, por exemplo, uma imagem acompanhada de uma pergunta textual, para guiar o modelo para uma resposta específica.