Glossário IA
O dicionário completo da Inteligência Artificial
Vector Embedding
Representação numérica densa de um objeto textual ou visual em um espaço vetorial multidimensional, capturando suas características semânticas fundamentais. Esses embeddings permitem que as máquinas compreendam e comparem o significado dos dados de maneira quantitativa.
Vector Database
Banco de dados especializado otimizado para armazenar, indexar e consultar eficientemente representações vetoriais de alta dimensão. Ele utiliza estruturas de indexação avançadas como HNSW ou IVF para acelerar pesquisas de similaridade.
Semantic Search
Método de pesquisa que compreende a intenção e o contexto semântico por trás de uma consulta, em vez de se basear apenas em correspondências exatas de palavras-chave. Ele usa embeddings para encontrar documentos conceitualmente similares mesmo sem compartilhamento de vocabulário.
Dimensionality Reduction
Processo algorítmico que reduz o número de dimensões nos embeddings enquanto preserva relações semânticas importantes. Técnicas como PCA ou t-SNE permitem otimizar o armazenamento e acelerar os cálculos de similaridade.
Vector Index
Estrutura de dados otimizada que organiza os vetores para permitir pesquisas rápidas de vizinhos mais próximos sem comparação exaustiva. Índices como HNSW, IVF ou LSH reduzem significativamente a complexidade temporal das consultas.
Vector Normalization
Processo de escalonamento dos vetores para ter uma norma unitária, padronizando assim as comparações de similaridade cosseno. Esta técnica elimina vieses relacionados à magnitude dos vetores e foca apenas em sua direção semântica.
Embedding Model
Rede neural pré-treinada que transforma texto ou outros dados em representações vetoriais densas. Modelos como BERT, Sentence-BERT ou embeddings da OpenAI capturam diferentes nuances semânticas de acordo com sua arquitetura.
HNSW (Hierarchical Navigable Small World)
Estrutura de indexação em grafo que cria múltiplas camadas de conexões para acelerar a pesquisa de vizinhos mais próximos. Ela oferece um excelente compromisso entre velocidade de construção, eficiência de memória e qualidade de pesquisa.
IVF (Índice de Arquivo Invertido)
Técnica de indexação que particiona o espaço vetorial em regiões (listas invertidas) para limitar a busca às áreas relevantes. Combina quantizadores grosseiros e refinados para equilibrar precisão e desempenho em buscas ANN.
Métricas de Distância
Funções matemáticas que quantificam a dissimilaridade entre dois vetores no espaço de embedding. As métricas comuns incluem distância euclidiana, similaridade de cosseno e distância de Manhattan, cada uma adaptada a diferentes casos de uso.
Armazenamento Vetorial
Componente de arquitetura RAG responsável pelo armazenamento e recuperação eficiente dos embeddings de documentos. Gerencia a persistência, indexação e consulta dos vetores para alimentar o sistema de geração aumentada.
Recuperação Densa
Abordagem de recuperação de informação que usa embeddings densos para capturar relações semânticas profundas entre documentos e consultas. Supera métodos esparsos como TF-IDF para compreender contexto e intenção.
Cache de Embeddings
Sistema de cache que armazena embeddings pré-calculados para evitar cálculos redundantes e acelerar respostas. É crucial para o desempenho de sistemas RAG que lidam com consultas recorrentes ou similares.
Embedding de Fragmentos
Processo de criação de embeddings para segmentos de documentos em vez de documentos inteiros, permitindo uma recuperação mais granular e precisa. O tamanho ideal dos fragmentos depende do domínio e dos requisitos de contexto.
Metadados Vetoriais
Informações associadas a cada vetor incluindo identificador do documento fonte, timestamps, scores de relevância ou outros atributos filtráveis. Os metadados permitem um refinamento preciso dos resultados de busca.