Recuperação Híbrida

📖

termos

Abordagem de pesquisa que combina métodos de pesquisa vetorial e por palavras-chave para otimizar simultaneamente precisão e recall em sistemas RAG. Esta técnica explora os pontos fortes da pesquisa semântica e da pesquisa léxica para resultados mais abrangentes.

📖

termos

Pesquisa Vetorial

Método de pesquisa baseado na similaridade semântica dos embeddings vetoriais em um espaço multidimensional de alta dimensão. Permite encontrar documentos relevantes mesmo sem correspondência exata de palavras-chave graças à compreensão do contexto.

📖

termos

Pesquisa por Palavras-Chave

Técnica de pesquisa tradicional baseada na correspondência exata ou parcial de termos nos documentos e na consulta. Utiliza algoritmos como BM25 para avaliar a relevância baseada na frequência e distribuição dos termos.

📖

termos

Recuperação Esparsa

Método de pesquisa que utiliza representações esparsas do texto baseadas na presença ou ausência de termos específicos. Mais eficiente em termos computacionais e excelente para correspondências exatas de palavras-chave.

📖

termos

Fusão de Classificação Recíproca

Algoritmo de fusão de resultados de pesquisa que combina as classificações de múltiplos sistemas de pesquisa usando uma fórmula de ponderação harmônica. Permite obter uma classificação robusta explorando a complementaridade das abordagens.

📖

termos

Algoritmo BM25

Algoritmo de classificação probabilística baseado na frequência dos termos e no comprimento dos documentos, amplamente utilizado em motores de pesquisa por palavras-chave. Considerado o estado da arte para pesquisa léxica em sistemas híbridos.

📖

termos

FAISS

Biblioteca otimizada do Facebook AI para pesquisa de similaridade rápida em espaços vetoriais de alta dimensão. Essencial para implementar eficientemente o componente vetorial dos sistemas de recuperação híbridos.

📖

termos

Cross-Encoder

Arquitetura de modelo neural que codifica simultaneamente a consulta e o documento para prever sua relevância mútua. Mais preciso mas mais lento que os bi-encoders, frequentemente usado para reclassificação de resultados híbridos.

📖

termos

Bi-Encoder

Arquitetura de modelo que codifica separadamente consultas e documentos em vetores independentes para busca vetorial eficiente. Fundamental para o componente denso de sistemas de recuperação híbridos em larga escala.

📖

termos

Re-ranking

Processo de reavaliação e reorganização dos resultados de busca iniciais usando modelos mais complexos para melhorar a precisão final. Etapa crucial em pipelines híbridos para refinar a seleção dos documentos mais relevantes.

📖

termos

Semantic Similarity

Medida da proximidade conceitual entre dois textos baseada em seu significado em vez de suas palavras exatas. Geralmente calculada via distância cosseno entre seus embeddings em sistemas híbridos.

📖

termos

Embedding Fusion

Técnica que combina múltiplos tipos de embeddings ou representações vetoriais para capturar diferentes aspectos semânticos do texto. Melhora a robustez da busca vetorial em sistemas híbridos multi-modais.

📖

termos

Query Understanding

Processo de análise e interpretação das intenções do usuário nas consultas para otimizar a estratégia de busca híbrida. Envolve detecção de entidades, classificação de intenções e expansão semântica.

📖

termos

ColBERT

Modelo de busca contextual usando embeddings em nível de tokens em vez de nível de documento para granularidade máxima. Permite comparações token-a-token refinadas em sistemas de recuperação híbridos.

📖

termos

Late Fusion

Estratégia de combinação onde os resultados de busca vetorial e por palavras-chave são fundidos após sua avaliação individual. Abordagem flexível permitindo ponderações dinâmicas de acordo com as características da consulta.

📖

termos

Early Fusion

Abordagem híbrida combinando características vetoriais e lexicais no nível de indexação ou representação documental. Permite integração profunda de sinais mas com menos flexibilidade de adaptação.

📖

termos

Dense Passage Retriever

Modelo especializado na recuperação de passagens relevantes usando codificadores BERT para gerar embeddings de alta qualidade. Componente chave para pesquisa vetorial em sistemas RAG híbridos.

Glossário IA