Glossário IA
O dicionário completo da Inteligência Artificial
Difusão Multimodal
Classe de modelos generativos que aprendem uma distribuição de probabilidade conjunta sobre múltiplas modalidades (texto, imagem, áudio) através de um processo de difusão partilhado ou coordenado.
Espaço Latente Unificado
Representação vetorial comum onde os dados de diferentes modalidades são projetados para permitir a sua interação e transformação mútua dentro de um modelo de difusão.
Condicionamento Cruzado
Técnica onde o processo de geração de uma modalidade é guiado pela informação de outra modalidade, por exemplo, gerar uma imagem a partir de um texto ou um áudio a partir de uma imagem.
Ruído Estruturado Multimodal
Processo de adição de ruído que preserva as correlações intermodais, degradando conjuntamente as diferentes modalidades para manter o seu alinhamento semântico ao longo do processo de difusão.
Desruído Coordenado
Etapa de desruído onde as redes neurais dedicadas a cada modalidade trocam informações para reconstruir de forma coerente os dados a partir da sua versão ruidosa partilhada.
Codificador Multimodal
Rede neural encarregada de projetar os dados de diferentes modalidades no espaço latente unificado, capturando as suas características essenciais e as suas relações.
Decodificador Multimodal
Rede neural que reconstrói os dados de cada modalidade a partir da sua representação no espaço latente unificado após o processo de desruído.
Alinhamento Intermodal
Objetivo de aprendizagem que visa minimizar a distância entre as representações latentes de diferentes modalidades que descrevem o mesmo conceito, garantindo a sua coerência semântica.
Modelo de Difusão Unificado
Arquitetura de modelo única que processa e gera simultaneamente múltiplas modalidades usando um único processo de difusão e um conjunto de pesos compartilhados.
Orientação Multimodal
Técnica de inferência que utiliza o gradiente de um modelo de classificação multimodal para guiar o processo de amostragem em direção a saídas melhor alinhadas com uma condição dada.
Difusão de Múltiplos Braços
Arquitetura onde um processo de difusão central possui 'braços' especializados para gerenciar o ruído e a remoção de ruído específicos de cada modalidade, enquanto compartilha um tronco comum.
Perda de Coerência Multimodal
Função de perda que penaliza as inconsistências semânticas entre as modalidades geradas, medida, por exemplo, através da distância de cosseno no espaço latente unificado.
Amostragem Intermodal
Processo de geração onde se amostra uma modalidade enquanto se condiciona em outra modalidade já existente ou gerada simultaneamente.
Rede de Predição de Ruído Compartilhada
Componente central do modelo de difusão, frequentemente uma arquitetura U-Net, cujas camadas inferiores são compartilhadas entre as modalidades e as camadas superiores são especializadas.
Incorporação de Tempo Multimodal
Representação do passo de tempo do processo de difusão que é injetada no modelo, frequentemente condicionada pela modalidade para gerenciar diferentes dinâmicas de ruído.
Difusão de Sequência Multimodal
Aplicação da difusão a dados sequenciais envolvendo múltiplas modalidades, como a geração de vídeo (imagem + tempo) ou de diálogo sincronizado (áudio + texto).
Tokenização Multimodal
Processo de discretização de dados de diferentes modalidades em uma sequência de tokens unificados que podem ser processados por uma arquitetura do tipo Transformer no contexto da difusão.