Glossário IA
O dicionário completo da Inteligência Artificial
DETR (DEtection TRansformer)
Arquitetura pioneira que elimina a necessidade de âncoras e supressão não máxima, tratando a detecção de objetos como um problema de previsão de conjunto direto, utilizando um transformador bipartido para modelar as relações entre os objetos.
Transformador Bipartido
Variante da arquitetura Transformer onde os mecanismos de atenção são aplicados entre as características da imagem e um pequeno conjunto fixo de consultas de objetos aprendíveis, permitindo uma previsão paralela dos objetos.
Consultas de Objetos (Object Queries)
Vetores de embedding posicionais aprendíveis que servem como slots para cada previsão de objeto potencial, interagindo com as características da imagem via mecanismo de atenção para extrair informações relevantes.
Perda de Correspondência Bipartida (Bipartite Matching Loss)
Função de perda baseada no algoritmo húngaro que encontra uma correspondência ótima um-para-um entre as previsões do modelo e as verdades de campo, resolvendo o problema de permutação das previsões sem supervisão.
Codificador-Decodificador Transformer
Estrutura onde o codificador processa as características da imagem para criar uma representação rica em contexto, e o decodificador usa as consultas de objetos para decodificar essa representação em previsões finais de caixas e classes.
Atenção Multi-cabeça Multi-escala (MSA)
Mecanismo de atenção que opera sobre características fusionadas de múltiplos níveis do mapa de características, permitindo ao modelo capturar simultaneamente informações locais e globais para uma melhor detecção de objetos de tamanhos variados.
DETR-ResNet
Variante de DETR que utiliza uma rede neural convolucional ResNet como extrator de características principal, combinando o poder das CNNs para a extração de características com o raciocínio global dos Transformers.
Mask2Former
Arquitetura unificada para segmentação de panoptic, de instâncias e semântica que mascara as regiões de interesse e prevê as máscaras diretamente usando transformadores, superando as abordagens anteriores em termos de precisão e simplicidade.
Embeddings de Posição
Vetores adicionados às características da imagem para fornecer informações espaciais ao Transformer, essenciais para que o modelo compreenda a geometria da cena e localize corretamente os objetos.
Conditional DETR
Melhoria do DETR que acelera a convergência ao condicionar as consultas de objetos ao conteúdo da imagem, permitindo uma melhor especialização das consultas e previsões mais precisas.
Deformable DETR
Variante do DETR que integra módulos de atenção deformáveis para focar num pequeno conjunto de pontos-chave, melhorando significativamente a velocidade de convergência e o desempenho, especialmente para objetos pequenos.
Sparse R-CNN
Abordagem de deteção totalmente esparsa que utiliza um conjunto fixo de caixas propostas aprendíveis e uma cascata de transformadores para refinar as previsões, eliminando a necessidade de heurísticas como âncoras ou NMS.
Query-to-Attention
Mecanismo onde as consultas de objetos guiam a atenção do modelo para as regiões relevantes da imagem, ao contrário da atenção global, o que melhora a eficiência e a especialização das previsões.
DINO (DETR with Improved deNoising Anchor Boxes)
Modelo de ponta que combina caixas de ancoragem de denoising melhoradas com uma arquitetura Transformer, alcançando desempenho de ponta em benchmarks de deteção sem a necessidade de NMS.
Perda Focal para Transformadores
Função de perda projetada para resolver o problema da convergência lenta dos modelos DETR, focando em amostras difíceis e reduzindo a contribuição de amostras fáceis bem classificadas.
Segmentação Panóptica por Transformer
Aplicação das arquiteturas Transformer à tarefa unificada de segmentação panóptica, prevendo simultaneamente máscaras semânticas para objetos e fundo usando um único modelo de ponta a ponta.
Mamba-DETR
Arquitetura de detecção que substitui os mecanismos de atenção por blocos de espaço de estado (State Space Blocks) inspirados em Mamba, oferecendo complexidade linear e desempenho competitivo para a detecção de objetos em tempo real.