Modelos Multimodais - Glossário IA

📖

termos

Modelo de Linguagem-Visão (VLM)

Subclasse de modelos multimodais especializados na compreensão conjunta de texto e imagens, capazes de tarefas como legendagem de imagens, raciocínio visual ou geração de imagens a partir de texto.

📖

termos

Tokenização Visual

Técnica que divide uma imagem em uma sequência de patches ou tokens discretos, frequentemente através de uma rede neural como um Vision Transformer (ViT), para torná-la compatível com a arquitetura dos transformadores textuais.

📖

termos

Modelo de Alinhamento

Modelo, frequentemente baseado em um contrastador como CLIP, treinado em imensos corpus de pares (imagem, texto) para aprender a projetar as duas modalidades em um espaço vetorial compartilhado onde a similaridade de cosseno reflete sua relevância mútua.

📖

termos

Geração Condicional Multimodal

Tarefa de geração onde a saída (ex: texto, imagem) é produzida com base em uma ou mais entradas de diferentes modalidades, como a descrição de uma imagem ou a criação de uma imagem a partir de um texto.

📖

termos

Raciocínio em Cadeia Multimodal

Capacidade de um modelo de usar informações de múltiplas modalidades para construir uma sequência lógica de pensamento e chegar a uma conclusão, por exemplo, analisando um gráfico e um texto para responder a uma pergunta.

📖

termos

Perceptron Multimodal

Conceito teórico ou arquitetura primitiva onde entradas de diferentes naturezas são combinadas, frequentemente por concatenação ou uma operação de fusão, antes de serem processadas por camadas de neurônios totalmente conectados.

📖

termos

Modelo de Difusão Multimodal

Arquitetura de geração que utiliza um processo iterativo de ruído e denoising para criar dados (ex: imagens) condicionados por outra modalidade (ex: uma descrição textual), guiando o denoising com a informação de condicionamento.

📖

termos

Codificação Separada vs. Codificação Unificada

Duas estratégias de arquitetura para modelos multimodais: a codificação separada trata cada modalidade com um codificador dedicado antes da fusão, enquanto a codificação unificada usa um único transformador para processar uma sequência de tokens misturados.

📖

termos

Aprendizagem Zero-Shot Multimodal

Capacidade de um modelo de realizar uma tarefa em uma modalidade (ex: classificar uma imagem) sem ter sido explicitamente treinado para ela, aproveitando o conhecimento transferido de outra modalidade (ex: o texto dos rótulos das classes).

📖

termos

Modelo Áudio-Visão-Texto

Forma avançada de modelo multimodal integrando três fluxos de dados (som, imagem, texto) para tarefas complexas como a descrição de vídeos, onde o modelo deve sincronizar e interpretar as informações visuais e sonoras para produzir uma narração textual.

📖

termos

Projeção Latente

Camada de rede neural, muitas vezes uma simples transformação linear, usada para mapear os vetores de embeddings de cada modalidade em um espaço latente comum antes de sua fusão ou comparação.

📖

termos

Modelo Fundamental Multimodal

Modelo de grande escala, pré-treinado em quantidades massivas de dados heterogêneos, que serve de base para a adaptação (fine-tuning) a uma infinidade de tarefas multimodais específicas.

📖

termos

Modularidade em Modelos Multimodais

Princípio de design onde os codificadores para cada modalidade são módulos distintos e intercambiáveis, permitindo atualizar ou substituir um componente (ex: o codificador de visão) sem retreinar o modelo inteiro.

📖

termos

Prompting Multimodal

Técnica de interação com um modelo onde a entrada (o 'prompt') é composta por várias modalidades, por exemplo, uma imagem acompanhada de uma pergunta textual, para guiar o modelo para uma resposta específica.

Glossário IA

Modelo de Linguagem-Visão (VLM)

Tokenização Visual

Modelo de Alinhamento

Geração Condicional Multimodal

Raciocínio em Cadeia Multimodal

Perceptron Multimodal

Modelo de Difusão Multimodal

Codificação Separada vs. Codificação Unificada

Aprendizagem Zero-Shot Multimodal

Modelo Áudio-Visão-Texto

Projeção Latente

Modelo Fundamental Multimodal

Modularidade em Modelos Multimodais

Prompting Multimodal

Nenhum resultado encontrado