Глоссарий ИИ
Полный словарь искусственного интеллекта
Векторное Вложение
Плотное числовое представление текстового или визуального объекта в многомерном векторном пространстве, захватывающее его фундаментальные семантические характеристики. Эти вложения позволяют машинам понимать и сравнивать смысл данных количественным образом.
Векторная База Данных
Специализированная база данных, оптимизированная для эффективного хранения, индексирования и запроса многомерных векторных представлений. Она использует продвинутые структуры индексирования, такие как HNSW или IVF, для ускорения поиска схожести.
Семантический Поиск
Метод поиска, который понимает намерение и семантический контекст запроса, а не полагается только на точные совпадения ключевых слов. Он использует векторные вложения для поиска концептуально схожих документов даже без общего словарного запаса.
Снижение Размерности
Алгоритмический процесс, который уменьшает количество измерений в векторных вложениях, сохраняя при этом важные семантические отношения. Такие техники, как PCA или t-SNE, позволяют оптимизировать хранение и ускорить вычисления схожести.
Векторный Индекс
Оптимизированная структура данных, которая организует векторы для обеспечения быстрого поиска ближайших соседей без полного перебора. Индексы, такие как HNSW, IVF или LSH, значительно снижают временную сложность запросов.
Нормализация Векторов
Процесс масштабирования векторов до единичной нормы, стандартизирующий сравнения косинусной схожести. Эта техника устраняет смещения, связанные с величиной векторов, и фокусируется только на их семантическом направлении.
Модель Вложения
Предварительно обученная нейронная сеть, которая преобразует текст или другие данные в плотные векторные представления. Модели, такие как BERT, Sentence-BERT или OpenAI embeddings, захватывают различные семантические нюансы в зависимости от их архитектуры.
HNSW (Иерархический Навигируемый Маленький Мир)
Графовая структура индексирования, которая создает несколько слоев соединений для ускорения поиска ближайших соседей. Она предлагает отличный компромисс между скоростью построения, эффективностью памяти и качеством поиска.
IVF (Инвертированный файловый индекс)
Техника индексирования, которая разделяет векторное пространство на регионы (инвертированные списки) для ограничения поиска релевантными областями. Она сочетает грубые и точные квантователи для балансировки точности и производительности в поиске ANN.
Метрики расстояния
Математические функции, которые количественно определяют различие между двумя векторами в пространстве эмбеддингов. Общие метрики включают евклидово расстояние, косинусное сходство и расстояние Манхэттена, каждая из которых адаптирована для различных случаев использования.
Векторное хранилище
Компонент архитектуры RAG, отвечающий за эффективное хранение и извлечение эмбеддингов документов. Он управляет персистентностью, индексированием и запросами векторов для питания системы расширенной генерации.
Плотное извлечение
Подход к извлечению информации, который использует плотные эмбеддинги для захвата глубоких семантических отношений между документами и запросами. Он превосходит разреженные методы, такие как TF-IDF, в понимании контекста и намерения.
Кэш эмбеддингов
Система кэширования, которая хранит предварительно вычисленные эмбеддинги для избежания избыточных вычислений и ускорения ответов. Она критически важна для производительности систем RAG, обрабатывающих повторяющиеся или похожие запросы.
Чанковый эмбеддинг
Процесс создания эмбеддингов для сегментов документов, а не для целых документов, позволяющий более гранулярное и точное извлечение. Оптимальный размер чанков зависит от домена и требований к контексту.
Векторные метаданные
Информация, связанная с каждым вектором, включая идентификатор исходного документа, временные метки, оценки релевантности или другие фильтруемые атрибуты. Метаданные позволяют точно уточнять результаты поиска.