Glossário IA
O dicionário completo da Inteligência Artificial
Indexação Invertida
Estrutura de dados que associa cada conteúdo (como uma palavra ou termo) à lista de documentos onde ele aparece, otimizando a busca rápida de informações relevantes em uma grande coleção.
Dense Retriever
Modelo de recuperação que codifica documentos e perguntas em um espaço vetorial contínuo (denso) para encontrar as correspondências semanticamente mais próximas, frequentemente através de redes neurais.
Sparse Retriever
Abordagem de recuperação baseada na correspondência exata de palavras-chave (termos) entre a pergunta e os documentos, utilizando representações vetoriais de alta dimensão, mas majoritariamente vazias (esparsas).
BM25 (Best Match 25)
Função de classificação probabilística utilizada em motores de busca para avaliar a relevância de um documento em relação a uma consulta, baseando-se na frequência dos termos e na sua raridade na coleção.
Reranking
Processo em duas etapas onde um primeiro modelo recupera rapidamente um grande número de candidatos, e então um segundo modelo, mais complexo e lento, reordena esses candidatos para refinar a seleção das melhores respostas.
FAISS (Facebook AI Similarity Search)
Biblioteca otimizada para a busca rápida de similaridade e agrupamento de vetores densos, permitindo gerenciar eficientemente bilhões de embeddings para a recuperação de informações.
Maximum Inner Product Search (MIPS)
Problema computacional que consiste em encontrar, em uma base de dados de vetores, o vetor que maximiza o produto escalar com um vetor de consulta dado, fundamental para a recuperação densa.
Approximate Nearest Neighbor (ANN)
Conjunto de algoritmos que encontram pontos de dados próximos a um ponto de consulta, trocando uma perda de precisão negligenciável por ganhos significativos de velocidade e eficiência de memória.
ColBERT (Interação Tardia Contextualizada)
Modelo de recuperação que codifica cada termo de uma consulta e de um documento em seu contexto, e então avalia a relevância através de uma interação tardia baseada na soma das similaridades máximas entre os termos.
Elasticsearch
Motor de busca e análise distribuído, baseado no Apache Lucene, amplamente utilizado para implementar sistemas de recuperação de informações graças às suas capacidades de indexação e consulta em tempo real.
TF-IDF (Frequência de Termo-Inverso da Frequência de Documento)
Métrica estatística que avalia a importância de uma palavra em um documento em relação a uma coleção de documentos, aumentando com sua frequência no documento e diminuindo com sua frequência na coleção.