Глоссарий ИИ
Полный словарь искусственного интеллекта
Обратная индексация
Структура данных, которая связывает каждый элемент содержимого (например, слово или термин) со списком документов, в которых он встречается, что позволяет оптимизировать быстрый поиск релевантной информации в больших коллекциях.
Плотный ретривер (Dense Retriever)
Модель поиска, которая кодирует документы и запросы в непрерывное (плотное) векторное пространство для поиска семантически ближайших соответствий, часто с помощью нейронных сетей.
Разреженный ретривер (Sparse Retriever)
Подход к поиску, основанный на точном совпадении ключевых слов (терминов) между запросом и документами, использующий векторные представления большой размерности, но преимущественно пустые (разреженные).
BM25 (Best Match 25)
Вероятностная функция ранжирования, используемая в поисковых системах для оценки релевантности документа запросу на основе частоты терминов и их редкости в коллекции.
Переранжирование (Reranking)
Двухэтапный процесс, в котором первая модель быстро извлекает большое количество кандидатов, а затем вторая, более сложная и медленная модель, переупорядочивает этих кандидатов для уточнения выбора лучших ответов.
FAISS (Facebook AI Similarity Search)
Оптимизированная библиотека для быстрого поиска сходства и кластеризации плотных векторов, позволяющая эффективно управлять миллиардами эмбеддингов для поиска информации.
Поиск максимального скалярного произведения (MIPS)
Вычислительная задача, заключающаяся в поиске в базе данных векторов того вектора, который максимизирует скалярное произведение с заданным вектором запроса; является основой для плотного поиска.
Приближенный поиск ближайшего соседа (ANN)
Набор алгоритмов, которые находят точки данных, близкие к точке запроса, жертвуя незначительной потерей точности ради значительного выигрыша в скорости и эффективности использования памяти.
ColBERT (контекстуализированное позднее взаимодействие)
Модель информационного поиска, которая кодирует каждый термин запроса и документа в его контексте, а затем оценивает релевантность посредством позднего взаимодействия, основанного на сумме максимальных сходств между терминами.
Elasticsearch
Распределенная поисковая система и аналитический движок, основанный на Apache Lucene, широко используемый для реализации систем информационного поиска благодаря своим возможностям индексирования и выполнения запросов в реальном времени.
TF-IDF (частота термина — обратная частота документа)
Статистическая метрика, которая оценивает важность слова в документе по отношению к коллекции документов, возрастая с его частотой в документе и убывая с его частотой в коллекции.