Indexação Vetorial - Glossário IA

📖

termos

Vector Embedding

Representação numérica densa de um objeto textual ou visual em um espaço vetorial multidimensional, capturando suas características semânticas fundamentais. Esses embeddings permitem que as máquinas compreendam e comparem o significado dos dados de maneira quantitativa.

📖

termos

Vector Database

Banco de dados especializado otimizado para armazenar, indexar e consultar eficientemente representações vetoriais de alta dimensão. Ele utiliza estruturas de indexação avançadas como HNSW ou IVF para acelerar pesquisas de similaridade.

📖

termos

Semantic Search

Método de pesquisa que compreende a intenção e o contexto semântico por trás de uma consulta, em vez de se basear apenas em correspondências exatas de palavras-chave. Ele usa embeddings para encontrar documentos conceitualmente similares mesmo sem compartilhamento de vocabulário.

📖

termos

Dimensionality Reduction

Processo algorítmico que reduz o número de dimensões nos embeddings enquanto preserva relações semânticas importantes. Técnicas como PCA ou t-SNE permitem otimizar o armazenamento e acelerar os cálculos de similaridade.

📖

termos

Vector Index

Estrutura de dados otimizada que organiza os vetores para permitir pesquisas rápidas de vizinhos mais próximos sem comparação exaustiva. Índices como HNSW, IVF ou LSH reduzem significativamente a complexidade temporal das consultas.

📖

termos

Vector Normalization

Processo de escalonamento dos vetores para ter uma norma unitária, padronizando assim as comparações de similaridade cosseno. Esta técnica elimina vieses relacionados à magnitude dos vetores e foca apenas em sua direção semântica.

📖

termos

Embedding Model

Rede neural pré-treinada que transforma texto ou outros dados em representações vetoriais densas. Modelos como BERT, Sentence-BERT ou embeddings da OpenAI capturam diferentes nuances semânticas de acordo com sua arquitetura.

📖

termos

HNSW (Hierarchical Navigable Small World)

Estrutura de indexação em grafo que cria múltiplas camadas de conexões para acelerar a pesquisa de vizinhos mais próximos. Ela oferece um excelente compromisso entre velocidade de construção, eficiência de memória e qualidade de pesquisa.

📖

termos

IVF (Índice de Arquivo Invertido)

Técnica de indexação que particiona o espaço vetorial em regiões (listas invertidas) para limitar a busca às áreas relevantes. Combina quantizadores grosseiros e refinados para equilibrar precisão e desempenho em buscas ANN.

📖

termos

Métricas de Distância

Funções matemáticas que quantificam a dissimilaridade entre dois vetores no espaço de embedding. As métricas comuns incluem distância euclidiana, similaridade de cosseno e distância de Manhattan, cada uma adaptada a diferentes casos de uso.

📖

termos

Armazenamento Vetorial

Componente de arquitetura RAG responsável pelo armazenamento e recuperação eficiente dos embeddings de documentos. Gerencia a persistência, indexação e consulta dos vetores para alimentar o sistema de geração aumentada.

📖

termos

Recuperação Densa

Abordagem de recuperação de informação que usa embeddings densos para capturar relações semânticas profundas entre documentos e consultas. Supera métodos esparsos como TF-IDF para compreender contexto e intenção.

📖

termos

Cache de Embeddings

Sistema de cache que armazena embeddings pré-calculados para evitar cálculos redundantes e acelerar respostas. É crucial para o desempenho de sistemas RAG que lidam com consultas recorrentes ou similares.

📖

termos

Embedding de Fragmentos

Processo de criação de embeddings para segmentos de documentos em vez de documentos inteiros, permitindo uma recuperação mais granular e precisa. O tamanho ideal dos fragmentos depende do domínio e dos requisitos de contexto.

📖

termos

Metadados Vetoriais

Informações associadas a cada vetor incluindo identificador do documento fonte, timestamps, scores de relevância ou outros atributos filtráveis. Os metadados permitem um refinamento preciso dos resultados de busca.

Glossário IA

Vector Embedding

Vector Database

Semantic Search

Dimensionality Reduction

Vector Index

Vector Normalization

Embedding Model

HNSW (Hierarchical Navigable Small World)

IVF (Índice de Arquivo Invertido)

Métricas de Distância

Armazenamento Vetorial

Recuperação Densa

Cache de Embeddings

Embedding de Fragmentos

Metadados Vetoriais

Nenhum resultado encontrado