Difusão Multimodal

📖

termos

Classe de modelos generativos que aprendem uma distribuição de probabilidade conjunta sobre múltiplas modalidades (texto, imagem, áudio) através de um processo de difusão partilhado ou coordenado.

📖

termos

Espaço Latente Unificado

Representação vetorial comum onde os dados de diferentes modalidades são projetados para permitir a sua interação e transformação mútua dentro de um modelo de difusão.

📖

termos

Condicionamento Cruzado

Técnica onde o processo de geração de uma modalidade é guiado pela informação de outra modalidade, por exemplo, gerar uma imagem a partir de um texto ou um áudio a partir de uma imagem.

📖

termos

Ruído Estruturado Multimodal

Processo de adição de ruído que preserva as correlações intermodais, degradando conjuntamente as diferentes modalidades para manter o seu alinhamento semântico ao longo do processo de difusão.

📖

termos

Desruído Coordenado

Etapa de desruído onde as redes neurais dedicadas a cada modalidade trocam informações para reconstruir de forma coerente os dados a partir da sua versão ruidosa partilhada.

📖

termos

Codificador Multimodal

Rede neural encarregada de projetar os dados de diferentes modalidades no espaço latente unificado, capturando as suas características essenciais e as suas relações.

📖

termos

Decodificador Multimodal

Rede neural que reconstrói os dados de cada modalidade a partir da sua representação no espaço latente unificado após o processo de desruído.

📖

termos

Alinhamento Intermodal

Objetivo de aprendizagem que visa minimizar a distância entre as representações latentes de diferentes modalidades que descrevem o mesmo conceito, garantindo a sua coerência semântica.

📖

termos

Modelo de Difusão Unificado

Arquitetura de modelo única que processa e gera simultaneamente múltiplas modalidades usando um único processo de difusão e um conjunto de pesos compartilhados.

📖

termos

Orientação Multimodal

Técnica de inferência que utiliza o gradiente de um modelo de classificação multimodal para guiar o processo de amostragem em direção a saídas melhor alinhadas com uma condição dada.

📖

termos

Difusão de Múltiplos Braços

Arquitetura onde um processo de difusão central possui 'braços' especializados para gerenciar o ruído e a remoção de ruído específicos de cada modalidade, enquanto compartilha um tronco comum.

📖

termos

Perda de Coerência Multimodal

Função de perda que penaliza as inconsistências semânticas entre as modalidades geradas, medida, por exemplo, através da distância de cosseno no espaço latente unificado.

📖

termos

Amostragem Intermodal

Processo de geração onde se amostra uma modalidade enquanto se condiciona em outra modalidade já existente ou gerada simultaneamente.

📖

termos

Rede de Predição de Ruído Compartilhada

Componente central do modelo de difusão, frequentemente uma arquitetura U-Net, cujas camadas inferiores são compartilhadas entre as modalidades e as camadas superiores são especializadas.

📖

termos

Incorporação de Tempo Multimodal

Representação do passo de tempo do processo de difusão que é injetada no modelo, frequentemente condicionada pela modalidade para gerenciar diferentes dinâmicas de ruído.

📖

termos

Difusão de Sequência Multimodal

Aplicação da difusão a dados sequenciais envolvendo múltiplas modalidades, como a geração de vídeo (imagem + tempo) ou de diálogo sincronizado (áudio + texto).

📖

termos

Tokenização Multimodal

Processo de discretização de dados de diferentes modalidades em uma sequência de tokens unificados que podem ser processados por uma arquitetura do tipo Transformer no contexto da difusão.

Glossário IA