Векторная индексация

📖

термины

Векторное Вложение

Плотное числовое представление текстового или визуального объекта в многомерном векторном пространстве, захватывающее его фундаментальные семантические характеристики. Эти вложения позволяют машинам понимать и сравнивать смысл данных количественным образом.

📖

термины

Векторная База Данных

Специализированная база данных, оптимизированная для эффективного хранения, индексирования и запроса многомерных векторных представлений. Она использует продвинутые структуры индексирования, такие как HNSW или IVF, для ускорения поиска схожести.

📖

термины

Семантический Поиск

Метод поиска, который понимает намерение и семантический контекст запроса, а не полагается только на точные совпадения ключевых слов. Он использует векторные вложения для поиска концептуально схожих документов даже без общего словарного запаса.

📖

термины

Снижение Размерности

Алгоритмический процесс, который уменьшает количество измерений в векторных вложениях, сохраняя при этом важные семантические отношения. Такие техники, как PCA или t-SNE, позволяют оптимизировать хранение и ускорить вычисления схожести.

📖

термины

Векторный Индекс

Оптимизированная структура данных, которая организует векторы для обеспечения быстрого поиска ближайших соседей без полного перебора. Индексы, такие как HNSW, IVF или LSH, значительно снижают временную сложность запросов.

📖

термины

Нормализация Векторов

Процесс масштабирования векторов до единичной нормы, стандартизирующий сравнения косинусной схожести. Эта техника устраняет смещения, связанные с величиной векторов, и фокусируется только на их семантическом направлении.

📖

термины

Модель Вложения

Предварительно обученная нейронная сеть, которая преобразует текст или другие данные в плотные векторные представления. Модели, такие как BERT, Sentence-BERT или OpenAI embeddings, захватывают различные семантические нюансы в зависимости от их архитектуры.

📖

термины

HNSW (Иерархический Навигируемый Маленький Мир)

Графовая структура индексирования, которая создает несколько слоев соединений для ускорения поиска ближайших соседей. Она предлагает отличный компромисс между скоростью построения, эффективностью памяти и качеством поиска.

📖

термины

IVF (Инвертированный файловый индекс)

Техника индексирования, которая разделяет векторное пространство на регионы (инвертированные списки) для ограничения поиска релевантными областями. Она сочетает грубые и точные квантователи для балансировки точности и производительности в поиске ANN.

📖

термины

Метрики расстояния

Математические функции, которые количественно определяют различие между двумя векторами в пространстве эмбеддингов. Общие метрики включают евклидово расстояние, косинусное сходство и расстояние Манхэттена, каждая из которых адаптирована для различных случаев использования.

📖

термины

Векторное хранилище

Компонент архитектуры RAG, отвечающий за эффективное хранение и извлечение эмбеддингов документов. Он управляет персистентностью, индексированием и запросами векторов для питания системы расширенной генерации.

📖

термины

Плотное извлечение

Подход к извлечению информации, который использует плотные эмбеддинги для захвата глубоких семантических отношений между документами и запросами. Он превосходит разреженные методы, такие как TF-IDF, в понимании контекста и намерения.

📖

термины

Кэш эмбеддингов

Система кэширования, которая хранит предварительно вычисленные эмбеддинги для избежания избыточных вычислений и ускорения ответов. Она критически важна для производительности систем RAG, обрабатывающих повторяющиеся или похожие запросы.

📖

термины

Чанковый эмбеддинг

Процесс создания эмбеддингов для сегментов документов, а не для целых документов, позволяющий более гранулярное и точное извлечение. Оптимальный размер чанков зависит от домена и требований к контексту.

📖

термины

Векторные метаданные

Информация, связанная с каждым вектором, включая идентификатор исходного документа, временные метки, оценки релевантности или другие фильтруемые атрибуты. Метаданные позволяют точно уточнять результаты поиска.

Глоссарий ИИ

Векторное Вложение

Векторная База Данных

Семантический Поиск

Снижение Размерности

Векторный Индекс

Нормализация Векторов

Модель Вложения

HNSW (Иерархический Навигируемый Маленький Мир)

IVF (Инвертированный файловый индекс)

Метрики расстояния

Векторное хранилище

Плотное извлечение

Кэш эмбеддингов

Чанковый эмбеддинг

Векторные метаданные

Результаты не найдены