Glossário IA
O dicionário completo da Inteligência Artificial
Latência Ponta a Ponta
Medida do tempo total decorrido entre o envio de uma requisição por um usuário e o recebimento da resposta completa, incluindo todas as etapas de processamento do sistema de QA.
Cache Semântico
Mecanismo de armazenamento temporário de respostas baseado na similaridade semântica das requisições, permitindo servir rapidamente respostas pré-calculadas para perguntas semelhantes sem recálculo.
Indexação Invertida em Tempo Real
Estrutura de dados que atualiza continuamente o mapeamento de termos para documentos, permitindo a interrogação instantânea de dados recém-adicionados ou modificados.
Modelo de Recuperação Densa (Dense Retrieval)
Abordagem que utiliza embeddings vetoriais para representar documentos e requisições em um espaço semântico comum, otimizada para uma busca rápida e precisa.
Reranking Neural Online
Processo de reavaliação dos resultados de busca por um modelo de deep learning aplicado dinamicamente para refinar a ordem das respostas mais relevantes.
Pipeline de Processamento Assíncrono
Arquitetura onde as etapas de processamento são executadas em paralelo sem bloquear o fluxo principal, reduzindo a latência percebida pelo usuário.
Pré-cálculo de Representações
Estratégia que consiste em gerar e armazenar os vetores de codificação dos documentos antecipadamente para eliminar esta etapa custosa durante as requisições em tempo real.
Sharding de Conhecimento
Particionamento horizontal da base de conhecimento em vários nós para paralelizar as buscas e aumentar o throughput de requisições simultâneas.
Filtragem de Baixa Latência
Camada de filtragem rápida que utiliza heurísticas ou modelos leves para eliminar candidatos irrelevantes antes do processamento por modelos mais complexos.
Streaming de Respostas
Método de transmissão de respostas em fragmentos sucessivos à medida que são gerados, melhorando o tempo percebido de resposta para respostas longas.
Poda de Vetores (Vector Pruning)
Processo de redução do espaço de busca eliminando vetores pouco relevantes com base em métricas de distância ou similaridade pré-calculadas.
Inferência em Lotes na GPU
Técnica de otimização que agrupa múltiplas requisições para processá-las simultaneamente em uma GPU, maximizando a utilização dos recursos e reduzindo a latência por requisição.
Sistema de Busca Híbrido
Arquitetura que combina busca por palavras-chave (esparsa) e busca semântica (densa) para equilibrar precisão e recall, mantendo baixa latência.
Conexão Persistente (WebSocket)
Protocolo de comunicação bidirecional mantido aberto entre o cliente e o servidor, permitindo trocas instantâneas sem a sobrecarga de conexão para cada requisição.
Cache Multi-Nível
Estratégia de armazenamento de respostas em várias camadas (ex: memória, Redis, CDN) para servir as requisições a partir do cache mais rápido disponível.
Otimização do Caminho da Requisição
Análise e refinamento do percurso de uma requisição através do sistema para eliminar gargalos e minimizar cada salto de rede ou processamento.