🏠 Главная
Бенчмарки
📊 Все бенчмарки 🦖 Динозавр v1 🦖 Динозавр v2 ✅ Приложения To-Do List 🎨 Творческие свободные страницы 🎯 FSACB - Ультимативный показ 🌍 Бенчмарк перевода
Модели
🏆 Топ-10 моделей 🆓 Бесплатные модели 📋 Все модели ⚙️ Режимы Kilo Code
Ресурсы
💬 Библиотека промптов 📖 Глоссарий ИИ 🔗 Полезные ссылки

Глоссарий ИИ

Полный словарь искусственного интеллекта

235
категории
2 988
подкатегории
33 628
термины
📖
термины

Чередование

Техника онлайн-оценки, где результаты нескольких моделей ранжирования смешиваются и представляются пользователю одновременно, позволяя собрать более быструю и чувствительную обратную связь, чем традиционное A/B-тестирование.

📖
термины

Анализ мощности

Априорный расчет для определения минимального размера выборки, необходимого для A/B-теста для обнаружения эффекта заданной величины с указанным уровнем доверия и статистической мощностью.

📖
термины

OAT (Онлайн A/B-тестирование)

Процесс оценки моделей или алгоритмов в реальных условиях, направляя часть пользовательского трафика на новую версию для измерения её влияния на бизнес-метрики.

📖
термины

Канареечный выпуск

Стратегия постепенного развертывания, где новая модель сначала представляется очень маленькому подмножеству пользователей или запросов, прежде чем постепенно расширяться, если показатели здоровья положительны.

📖
термины

Развертывание в теневом режиме

Развертывание, при котором новая модель получает копию трафика в реальном времени и генерирует прогнозы параллельно со старой моделью, не затрагивая пользователей, для офлайн-сравнения производительности.

📖
термины

Эффект новизны

Смещение в A/B-тестах, где пользователи положительно реагируют на новизну просто потому, что она новая, независимо от её внутреннего качества, что может исказить оценку новой модели.

📖
термины

Основная метрика

Единый и основной ключевой показатель эффективности (KPI), используемый для принятия окончательного решения во время A/B-теста, выбранный за его сильную корреляцию с бизнес-целью (например, коэффициент конверсии, CTR).

📖
термины

Метрики-ограждения

Вторичные метрики, отслеживаемые во время теста, чтобы убедиться, что улучшение по основной метрике не вызывает негативной регрессии в других важных аспектах системы (например, задержка, стоимость).

📖
термины

CUPED (Controlled-experiment Using Pre-Experiment Data)

Техника уменьшения вариации, использующая поведенческие данные пользователей до эксперимента для повышения статистической чувствительности A/B тестов и сокращения необходимой продолжительности.

📖
термины

Two-Sided T-Test

Статистический тест, используемый для определения наличия значимой разницы между средними значениями двух групп (например, производительность модели A против B), без предположения о направлении этой разницы.

📖
термины

Chi-Squared Test

Непараметрический тест гипотезы, применяемый к категориальным данным (например, кликабельность), для оценки того, вызвано ли распределение наблюдаемых частот между вариантами теста случайностью.

📖
термины

Sample Ratio Mismatch (SRM)

Аномалия, обнаруживаемая, когда фактическая доля пользователей, выделенных каждому варианту теста, значительно отличается от ожидаемой пропорции (например, 50/50), что указывает на потенциальное смещение конфигурации.

📖
термины

Peeking Problem

Смещение, возникающее при многократном анализе результатов A/B теста до его планируемого завершения, что увеличивает риск ложных обнаружений (ложных срабатываний) из-за раздувания ошибки типа I.

📖
термины

Holdout Group

Сегмент пользователей, намеренно оставленный на старой версии модели даже после широкого внедрения новой версии, для непрерывного измерения долгосрочного воздействия.

📖
термины

Counterfactual Evaluation

Методология оценки производительности новой модели с использованием логов производственной модели, имитирующая, как новая модель повела бы себя на тех же исторических данных.

🔍

Результаты не найдены