A/B тестирование и эксперименты

📖

термины

A/B-тестирование

Экспериментальная методология сравнения двух версий (A и B) модели или сервиса для определения, какая из них работает лучше по заранее заданным метрикам, обычно через случайное распределение трафика.

📖

термины

Многовариантное тестирование

Продвинутая техника одновременного тестирования нескольких переменных и их комбинаций для выявления общей оптимизации, позволяющая оценить взаимодействие между различными факторами модели.

📖

термины

Сине-зелёное развёртывание (Blue-Green Deployment)

Паттерн развёртывания с двумя идентичными окружениями, где трафик полностью переключается со старой версии (Blue) на новую (Green) после полной валидации, минимизируя время простоя.

📖

термины

Флаг функции (Feature Flag)

Механизм контроля, позволяющий динамически включать/выключать определённые функции или модели без повторного развёртывания, облегчая проведение экспериментов и быстрый откат.

📖

термины

Разделение трафика

Техника интеллектуальной маршрутизации, пропорционально распределяющая запросы между разными версиями моделей согласно настраиваемым правилам для A/B-тестов или поэтапных развёртываний.

📖

термины

Статистическая значимость

Вероятностная мера, определяющая, являются ли наблюдаемые различия между тестируемыми вариантами результатом реальных эффектов, а не случайности, обычно при пороге p-value < 0.05.

📖

термины

P-значение (P-value)

Вероятность наблюдать результаты, по крайней мере, столь же экстремальные, как измеренные, если бы нулевая гипотеза была верна, используемая в качестве критерия принятия решений в проверке гипотез.

📖

термины

Доверительный интервал

Диапазон оценочных значений, который с заданной вероятностью (обычно 95%) содержит истинное значение измеряемого параметра, количественно оценивающий неопределённость экспериментальных оценок.

📖

термины

Контрольная группа

Выборка населения, получающая эталонную версию (обычно текущую модель), которая служит базовым уровнем для статистического сравнения с экспериментальными вариантами.

📖

термины

Экспериментальная группа

Сегмент населения, подвергающийся воздействию экспериментального варианта модели или тестируемого лечения, позволяющий измерить относительное влияние по сравнению с контрольной группой.

📖

термины

Базовая модель

Эталонная модель, используемая как точка сравнения для оценки улучшений, вносимых новыми версиями, часто это модель, находящаяся в настоящее время в эксплуатации.

📖

термины

Чемпион-претендент

Стратегия постоянной конкуренции, где текущая модель-чемпион постоянно бросает вызов претендующим моделям, при этом лучший исполнитель постепенно заменяет чемпиона.

📖

термины

Постепенное развертывание

Постепенное внедрение новой модели с постепенным увеличением процента трафика, позволяющее непрерывную проверку и минимизацию рисков негативного воздействия.

📖

термины

Платформа экспериментирования

Централизованная инфраструктура, управляющая полным жизненным циклом экспериментов, от создания вариантов до статистического анализа результатов и автоматизации принятия решений.

📖

термины

Дрейф метрик

Феномен постепенного ухудшения метрик производительности модели в эксплуатации, обнаруживаемый через непрерывный мониторинг и требующий периодических переоценок.

📖

термины

Статистический процесс, определяющий минимальное количество наблюдений, необходимое для обнаружения значимой разницы с заданной статистической мощностью, являющийся существенным для планирования тестов.

📖

термины

Байесовское A/B-тестирование

Альтернативный подход, использующий байесовские вероятности для оценки вариантов, позволяющий принимать непрерывные решения с меньшими выборками и интуитивно интерпретировать результаты.

📖

термины

Последовательное тестирование

Методология анализа, позволяющая оценивать результаты через заранее определенные интервалы без увеличения риска ошибки I типа, оптимизирующая продолжительность и затраты экспериментов.

Глоссарий ИИ