Вопросно-ответная система на основе поиска

📖

термины

Обратная индексация

Структура данных, которая связывает каждый элемент содержимого (например, слово или термин) со списком документов, в которых он встречается, что позволяет оптимизировать быстрый поиск релевантной информации в больших коллекциях.

📖

термины

Плотный ретривер (Dense Retriever)

Модель поиска, которая кодирует документы и запросы в непрерывное (плотное) векторное пространство для поиска семантически ближайших соответствий, часто с помощью нейронных сетей.

📖

термины

Разреженный ретривер (Sparse Retriever)

Подход к поиску, основанный на точном совпадении ключевых слов (терминов) между запросом и документами, использующий векторные представления большой размерности, но преимущественно пустые (разреженные).

📖

термины

BM25 (Best Match 25)

Вероятностная функция ранжирования, используемая в поисковых системах для оценки релевантности документа запросу на основе частоты терминов и их редкости в коллекции.

📖

термины

Переранжирование (Reranking)

Двухэтапный процесс, в котором первая модель быстро извлекает большое количество кандидатов, а затем вторая, более сложная и медленная модель, переупорядочивает этих кандидатов для уточнения выбора лучших ответов.

📖

термины

FAISS (Facebook AI Similarity Search)

Оптимизированная библиотека для быстрого поиска сходства и кластеризации плотных векторов, позволяющая эффективно управлять миллиардами эмбеддингов для поиска информации.

📖

термины

Поиск максимального скалярного произведения (MIPS)

Вычислительная задача, заключающаяся в поиске в базе данных векторов того вектора, который максимизирует скалярное произведение с заданным вектором запроса; является основой для плотного поиска.

📖

термины

Приближенный поиск ближайшего соседа (ANN)

Набор алгоритмов, которые находят точки данных, близкие к точке запроса, жертвуя незначительной потерей точности ради значительного выигрыша в скорости и эффективности использования памяти.

📖

термины

ColBERT (контекстуализированное позднее взаимодействие)

Модель информационного поиска, которая кодирует каждый термин запроса и документа в его контексте, а затем оценивает релевантность посредством позднего взаимодействия, основанного на сумме максимальных сходств между терминами.

📖

термины

Elasticsearch

Распределенная поисковая система и аналитический движок, основанный на Apache Lucene, широко используемый для реализации систем информационного поиска благодаря своим возможностям индексирования и выполнения запросов в реальном времени.

📖

термины

TF-IDF (частота термина — обратная частота документа)

Статистическая метрика, которая оценивает важность слова в документе по отношению к коллекции документов, возрастая с его частотой в документе и убывая с его частотой в коллекции.

Глоссарий ИИ

Обратная индексация

Плотный ретривер (Dense Retriever)

Разреженный ретривер (Sparse Retriever)

BM25 (Best Match 25)

Переранжирование (Reranking)

FAISS (Facebook AI Similarity Search)

Поиск максимального скалярного произведения (MIPS)

Приближенный поиск ближайшего соседа (ANN)

ColBERT (контекстуализированное позднее взаимодействие)

Elasticsearch

TF-IDF (частота термина — обратная частота документа)

Результаты не найдены