Glossário IA
O dicionário completo da Inteligência Artificial
Espaço de Representação Comum
Espaço vetorial compartilhado onde características de diferentes modalidades são projetadas para permitir comparações diretas e operações cross-modais.
Codificação Multi-Modal
Arquitetura neural que transforma simultaneamente múltiplas modalidades de entrada em representações vetoriais compatíveis para tarefas de aprendizado conjunto.
Fusão de Modalidades
Técnica que combina informações provenientes de diferentes fontes modais para criar uma representação unificada e enriquecida, capturando as complementaridades.
Projeção Contrastiva
Método de aprendizado que maximiza a similaridade entre pares positivos (texto-imagem correspondentes) enquanto minimiza a dos pares negativos em um espaço latente.
Aprendizado Conjunto Multi-Modal
Paradigma de treinamento simultâneo de múltiplos codificadores modais com objetivos compartilhados para desenvolver representações coerentes entre modalidades.
Arquitetura Transformer Multi-Modal
Modelo baseado em mecanismos de atenção cruzada que processa e integra sequências de diferentes modalidades para capturar suas interações profundas.
Perda de Triplet Multi-Modal
Função de custo que otimiza as distâncias relativas entre âncoras, positivas e negativas de diferentes modalidades para melhorar o alinhamento semântico.
Alinhamento Semântico
Correspondência conceitual entre elementos de diferentes modalidades baseada em seu significado, e não em suas características superficiais.
Co-aprendizagem Multimodal
Estratégia onde cada modalidade aprende a melhorar suas representações usando informações de outras modalidades como supervisão mútua.
Atenção Cruzada
Mecanismo que permite a uma modalidade focar seletivamente nas partes relevantes de outra modalidade para estabelecer correspondências finas.
Correspondência Multi-Escala
Alinhamento entre modalidades operando em diferentes níveis de granularidade, desde características locais até representações globais.
Sincronização Temporal Multimodal
Alinhamento temporal preciso entre fluxos de dados sequenciais de diferentes modalidades, como áudio e vídeo ou texto e ações.
Transferência Zero-Shot Cross-Modal
Capacidade de generalizar para novos pares modais ou classes sem exemplos de treinamento diretos, graças ao alinhamento aprendido no espaço comum.
Alinhamento Métrico Multimodal
Otimização de uma métrica de distância no espaço latente para garantir que as representações de modalidades semelhantes estejam próximas e as dissemelhantes distantes.
Codificação Multimodal Hierárquica
Arquitetura organizada em níveis que processam progressivamente as informações multimodais, dos detalhes locais à compreensão global.
Fusão Tardia vs. Precoce
Duas estratégias de integração modal: a fusão precoce combina os dados brutos, enquanto a tardia funde as representações já aprendidas separadamente.
Correspondência Global-Local
Alinhamento simultâneo entre representações globais (imagem inteira-texto completo) e correspondências locais (regiões-palavras) para um mapeamento preciso.