Глоссарий ИИ
Полный словарь искусственного интеллекта
Чередование
Техника онлайн-оценки, где результаты нескольких моделей ранжирования смешиваются и представляются пользователю одновременно, позволяя собрать более быструю и чувствительную обратную связь, чем традиционное A/B-тестирование.
Анализ мощности
Априорный расчет для определения минимального размера выборки, необходимого для A/B-теста для обнаружения эффекта заданной величины с указанным уровнем доверия и статистической мощностью.
OAT (Онлайн A/B-тестирование)
Процесс оценки моделей или алгоритмов в реальных условиях, направляя часть пользовательского трафика на новую версию для измерения её влияния на бизнес-метрики.
Канареечный выпуск
Стратегия постепенного развертывания, где новая модель сначала представляется очень маленькому подмножеству пользователей или запросов, прежде чем постепенно расширяться, если показатели здоровья положительны.
Развертывание в теневом режиме
Развертывание, при котором новая модель получает копию трафика в реальном времени и генерирует прогнозы параллельно со старой моделью, не затрагивая пользователей, для офлайн-сравнения производительности.
Эффект новизны
Смещение в A/B-тестах, где пользователи положительно реагируют на новизну просто потому, что она новая, независимо от её внутреннего качества, что может исказить оценку новой модели.
Основная метрика
Единый и основной ключевой показатель эффективности (KPI), используемый для принятия окончательного решения во время A/B-теста, выбранный за его сильную корреляцию с бизнес-целью (например, коэффициент конверсии, CTR).
Метрики-ограждения
Вторичные метрики, отслеживаемые во время теста, чтобы убедиться, что улучшение по основной метрике не вызывает негативной регрессии в других важных аспектах системы (например, задержка, стоимость).
CUPED (Controlled-experiment Using Pre-Experiment Data)
Техника уменьшения вариации, использующая поведенческие данные пользователей до эксперимента для повышения статистической чувствительности A/B тестов и сокращения необходимой продолжительности.
Two-Sided T-Test
Статистический тест, используемый для определения наличия значимой разницы между средними значениями двух групп (например, производительность модели A против B), без предположения о направлении этой разницы.
Chi-Squared Test
Непараметрический тест гипотезы, применяемый к категориальным данным (например, кликабельность), для оценки того, вызвано ли распределение наблюдаемых частот между вариантами теста случайностью.
Sample Ratio Mismatch (SRM)
Аномалия, обнаруживаемая, когда фактическая доля пользователей, выделенных каждому варианту теста, значительно отличается от ожидаемой пропорции (например, 50/50), что указывает на потенциальное смещение конфигурации.
Peeking Problem
Смещение, возникающее при многократном анализе результатов A/B теста до его планируемого завершения, что увеличивает риск ложных обнаружений (ложных срабатываний) из-за раздувания ошибки типа I.
Holdout Group
Сегмент пользователей, намеренно оставленный на старой версии модели даже после широкого внедрения новой версии, для непрерывного измерения долгосрочного воздействия.
Counterfactual Evaluation
Методология оценки производительности новой модели с использованием логов производственной модели, имитирующая, как новая модель повела бы себя на тех же исторических данных.