Глоссарий ИИ
Полный словарь искусственного интеллекта
A/B-тестирование
Экспериментальная методология сравнения двух версий (A и B) модели или сервиса для определения, какая из них работает лучше по заранее заданным метрикам, обычно через случайное распределение трафика.
Многовариантное тестирование
Продвинутая техника одновременного тестирования нескольких переменных и их комбинаций для выявления общей оптимизации, позволяющая оценить взаимодействие между различными факторами модели.
Сине-зелёное развёртывание (Blue-Green Deployment)
Паттерн развёртывания с двумя идентичными окружениями, где трафик полностью переключается со старой версии (Blue) на новую (Green) после полной валидации, минимизируя время простоя.
Флаг функции (Feature Flag)
Механизм контроля, позволяющий динамически включать/выключать определённые функции или модели без повторного развёртывания, облегчая проведение экспериментов и быстрый откат.
Разделение трафика
Техника интеллектуальной маршрутизации, пропорционально распределяющая запросы между разными версиями моделей согласно настраиваемым правилам для A/B-тестов или поэтапных развёртываний.
Статистическая значимость
Вероятностная мера, определяющая, являются ли наблюдаемые различия между тестируемыми вариантами результатом реальных эффектов, а не случайности, обычно при пороге p-value < 0.05.
P-значение (P-value)
Вероятность наблюдать результаты, по крайней мере, столь же экстремальные, как измеренные, если бы нулевая гипотеза была верна, используемая в качестве критерия принятия решений в проверке гипотез.
Доверительный интервал
Диапазон оценочных значений, который с заданной вероятностью (обычно 95%) содержит истинное значение измеряемого параметра, количественно оценивающий неопределённость экспериментальных оценок.
Контрольная группа
Выборка населения, получающая эталонную версию (обычно текущую модель), которая служит базовым уровнем для статистического сравнения с экспериментальными вариантами.
Экспериментальная группа
Сегмент населения, подвергающийся воздействию экспериментального варианта модели или тестируемого лечения, позволяющий измерить относительное влияние по сравнению с контрольной группой.
Базовая модель
Эталонная модель, используемая как точка сравнения для оценки улучшений, вносимых новыми версиями, часто это модель, находящаяся в настоящее время в эксплуатации.
Чемпион-претендент
Стратегия постоянной конкуренции, где текущая модель-чемпион постоянно бросает вызов претендующим моделям, при этом лучший исполнитель постепенно заменяет чемпиона.
Постепенное развертывание
Постепенное внедрение новой модели с постепенным увеличением процента трафика, позволяющее непрерывную проверку и минимизацию рисков негативного воздействия.
Платформа экспериментирования
Централизованная инфраструктура, управляющая полным жизненным циклом экспериментов, от создания вариантов до статистического анализа результатов и автоматизации принятия решений.
Дрейф метрик
Феномен постепенного ухудшения метрик производительности модели в эксплуатации, обнаруживаемый через непрерывный мониторинг и требующий периодических переоценок.
Расчет размера выборки
Статистический процесс, определяющий минимальное количество наблюдений, необходимое для обнаружения значимой разницы с заданной статистической мощностью, являющийся существенным для планирования тестов.
Байесовское A/B-тестирование
Альтернативный подход, использующий байесовские вероятности для оценки вариантов, позволяющий принимать непрерывные решения с меньшими выборками и интуитивно интерпретировать результаты.
Последовательное тестирование
Методология анализа, позволяющая оценивать результаты через заранее определенные интервалы без увеличения риска ошибки I типа, оптимизирующая продолжительность и затраты экспериментов.