Glossário IA
O dicionário completo da Inteligência Artificial
Atenção Cross-modal
Mecanismo de atenção que permite a um modelo relacionar elementos provenientes de diferentes modalidades (texto-imagem, áudio-texto) para enriquecer a compreensão contextual. Esta abordagem calcula pesos de atenção entre as características de cada modalidade para identificar as correlações semânticas pertinentes.
Geração Cross-domínio
Capacidade de um modelo de IA de criar conteúdo numa modalidade alvo a partir de entradas numa ou várias modalidades fonte diferentes. Esta transformação permite, por exemplo, gerar imagens a partir de descrições textuais, criar áudio a partir de vídeo, ou sintetizar texto a partir de imagens.
Modelos de Difusão Multimodais
Abordagem generativa que combina processos de difusão para criar conteúdo coerente através de várias modalidades simultaneamente. Estes modelos utilizam ruídos progressivos e condições cross-modais para gerar saídas complexas como vídeos sincronizados com áudio ou imagens com descrições detalhadas.
Projeção Compartilhada
Técnica que consiste em mapear as representações de diferentes modalidades num espaço vetorial comum através de redes de projeção aprendidas conjuntamente. Esta abordagem facilita as comparações diretas entre modalidades e permite operações como a recuperação cross-modal e a geração condicional.
Modelos Contrastivos Multimodais
Classe de modelos que utilizam objetivos de aprendizagem contrastiva para maximizar a similaridade entre pares positivos de modalidades, minimizando a dos pares negativos. Estes modelos destacam-se em tarefas de alinhamento e recuperação graças à sua capacidade de aprender representações semanticamente ricas.
Representações Latentes Multimodais
Espaços de dimensões reduzidas que codificam as informações essenciais de várias modalidades de forma compacta e interpretável. Estas representações capturam as correlações cross-modais, filtrando o ruído, permitindo tarefas eficazes de geração, classificação e recuperação.
Modelos de Codificação-Decodificação Multimodais
Arquitetura composta por um codificador multimodal que processa entradas heterogéneas e um decodificador que gera saídas na modalidade alvo. Estes modelos são particularmente eficazes para tarefas de sequência-para-sequência cross-modais, como a tradução imagem-texto ou a síntese áudio-vídeo.
Adaptador Multimodal
Módulo neural leve que permite adaptar modelos pré-treinados numa modalidade específica para processar eficazmente entradas multimodais sem um re-treinamento completo. Estes componentes facilitam a transferência de aprendizagem, preservando as capacidades do modelo base.