Глоссарий ИИ
Полный словарь искусственного интеллекта
Сквозная задержка
Мера общего времени, прошедшего между отправкой запроса пользователем и получением полного ответа, включая все этапы обработки в системе QA.
Семантический кэш
Механизм временного хранения ответов, основанный на семантическом сходстве запросов, позволяющий быстро выдавать предварительно вычисленные ответы для похожих вопросов без повторного вычисления.
Инвертированная индексация в реальном времени
Структура данных, которая непрерывно обновляет сопоставление терминов с документами, позволяя мгновенно запрашивать вновь добавленные или измененные данные.
Модель плотного поиска (Dense Retrieval)
Подход, использующий векторные представления для отображения документов и запросов в общем семантическом пространстве, оптимизированный для быстрого и точного поиска.
Онлайн-нейронное ранжирование
Процесс переоценки результатов поиска с помощью модели глубокого обучения, применяемой динамически для уточнения порядка наиболее релевантных ответов.
Асинхронный конвейер обработки
Архитектура, в которой этапы обработки выполняются параллельно без блокировки основного потока, что снижает задержку, воспринимаемую пользователем.
Предварительное вычисление представлений
Стратегия, заключающаяся в предварительной генерации и сохранении векторов кодирования документов, чтобы исключить этот затратный этап при запросах в реальном времени.
Шардирование знаний
Горизонтальное разбиение базы знаний по нескольким узлам для распараллеливания поиска и увеличения пропускной способности одновременных запросов.
Фильтрация с низкой задержкой
Слой быстрой фильтрации, использующий эвристики или легковесные модели для исключения нерелевантных кандидатов перед обработкой более сложными моделями.
Потоковая передача ответов
Метод передачи ответов последовательными фрагментами сразу после их генерации, что улучшает воспринимаемое время ответа для длинных сообщений.
Отсечение векторов (Vector Pruning)
Процесс сокращения пространства поиска путем исключения нерелевантных векторов на основе предварительно вычисленных метрик расстояния или сходства.
Пакетный вывод на GPU
Техника оптимизации, которая объединяет несколько запросов для их одновременной обработки на GPU, что максимизирует использование ресурсов и снижает задержку на один запрос.
Гибридная поисковая система
Архитектура, объединяющая поиск по ключевым словам (разреженный) и семантический поиск (плотный) для баланса точности и полноты при сохранении низкой задержки.
Постоянное соединение (WebSocket)
Протокол двусторонней связи, который поддерживается открытым между клиентом и сервером, позволяя осуществлять мгновенный обмен данными без накладных расходов на установление соединения для каждого запроса.
Многоуровневое кэширование
Стратегия хранения ответов на нескольких уровнях (например, память, Redis, CDN) для обработки запросов из самого быстрого доступного кэша.
Оптимизация пути запроса
Анализ и оптимизация маршрута запроса через систему для устранения узких мест и минимизации каждого сетевого перехода или этапа обработки.