A/B-тестирование для МО

📖

термины

Чередование

Техника онлайн-оценки, где результаты нескольких моделей ранжирования смешиваются и представляются пользователю одновременно, позволяя собрать более быструю и чувствительную обратную связь, чем традиционное A/B-тестирование.

📖

термины

Анализ мощности

Априорный расчет для определения минимального размера выборки, необходимого для A/B-теста для обнаружения эффекта заданной величины с указанным уровнем доверия и статистической мощностью.

📖

термины

OAT (Онлайн A/B-тестирование)

Процесс оценки моделей или алгоритмов в реальных условиях, направляя часть пользовательского трафика на новую версию для измерения её влияния на бизнес-метрики.

📖

термины

Канареечный выпуск

Стратегия постепенного развертывания, где новая модель сначала представляется очень маленькому подмножеству пользователей или запросов, прежде чем постепенно расширяться, если показатели здоровья положительны.

📖

термины

Развертывание в теневом режиме

Развертывание, при котором новая модель получает копию трафика в реальном времени и генерирует прогнозы параллельно со старой моделью, не затрагивая пользователей, для офлайн-сравнения производительности.

📖

термины

Эффект новизны

Смещение в A/B-тестах, где пользователи положительно реагируют на новизну просто потому, что она новая, независимо от её внутреннего качества, что может исказить оценку новой модели.

📖

термины

Основная метрика

Единый и основной ключевой показатель эффективности (KPI), используемый для принятия окончательного решения во время A/B-теста, выбранный за его сильную корреляцию с бизнес-целью (например, коэффициент конверсии, CTR).

📖

термины

Метрики-ограждения

Вторичные метрики, отслеживаемые во время теста, чтобы убедиться, что улучшение по основной метрике не вызывает негативной регрессии в других важных аспектах системы (например, задержка, стоимость).

📖

термины

CUPED (Controlled-experiment Using Pre-Experiment Data)

Техника уменьшения вариации, использующая поведенческие данные пользователей до эксперимента для повышения статистической чувствительности A/B тестов и сокращения необходимой продолжительности.

📖

термины

Two-Sided T-Test

Статистический тест, используемый для определения наличия значимой разницы между средними значениями двух групп (например, производительность модели A против B), без предположения о направлении этой разницы.

📖

термины

Chi-Squared Test

Непараметрический тест гипотезы, применяемый к категориальным данным (например, кликабельность), для оценки того, вызвано ли распределение наблюдаемых частот между вариантами теста случайностью.

📖

термины

Sample Ratio Mismatch (SRM)

Аномалия, обнаруживаемая, когда фактическая доля пользователей, выделенных каждому варианту теста, значительно отличается от ожидаемой пропорции (например, 50/50), что указывает на потенциальное смещение конфигурации.

📖

термины

Peeking Problem

Смещение, возникающее при многократном анализе результатов A/B теста до его планируемого завершения, что увеличивает риск ложных обнаружений (ложных срабатываний) из-за раздувания ошибки типа I.

📖

термины

Holdout Group

Сегмент пользователей, намеренно оставленный на старой версии модели даже после широкого внедрения новой версии, для непрерывного измерения долгосрочного воздействия.

📖

термины

Counterfactual Evaluation

Методология оценки производительности новой модели с использованием логов производственной модели, имитирующая, как новая модель повела бы себя на тех же исторических данных.

Глоссарий ИИ

Чередование

Анализ мощности

OAT (Онлайн A/B-тестирование)

Канареечный выпуск

Развертывание в теневом режиме

Эффект новизны

Основная метрика

Метрики-ограждения

CUPED (Controlled-experiment Using Pre-Experiment Data)

Two-Sided T-Test

Chi-Squared Test

Sample Ratio Mismatch (SRM)

Peeking Problem

Holdout Group

Counterfactual Evaluation

Результаты не найдены