Глоссарий ИИ
Полный словарь искусственного интеллекта
Перекрестная проверка
Метод оценки, разделяющий данные на подмножества для проверки обобщающей способности модели на нескольких итерациях.
Статистические тесты
Формальные статистические методы для значимого сравнения производительности между различными моделями или конфигурациями.
Метрики производительности
Набор количественных показателей (точность, полнота, F1-score, MAE, RMSE), измеряющих качество прогнозов в зависимости от контекста.
Анализ смещения и дисперсии
Разложение ошибки обобщения на смещение (недообучение) и дисперсию (переобучение) для оптимизации сложности модели.
Тесты на устойчивость
Оценка стабильности прогнозов при наличии возмущений, шума и вариаций во входных данных.
Временная проверка
Методология, специфичная для последовательных данных, где обучение использует периоды, предшествующие тестированию, для симуляции реальных условий.
ROC-кривые и AUC
Графические инструменты и метрики для оценки производительности бинарных классификаторов при различных пороговых значениях.
Калибровка Моделей
Корректировка предсказанных вероятностей для точного отражения реальных частот возникновения событий.
Тесты на справедливость
Оценка демографических предвзятостей и потенциальной дискриминации модели в соответствии с этическими и регуляторными критериями.
Анализ ошибок
Систематический анализ неверных прогнозов для выявления моделей ошибок и руководства улучшением модели.
Bootstrap-валидация
Техника повторной выборки с заменой для оценки изменчивости и надежности метрик производительности.
Стресс-тесты
Оценка поведения модели в экстремальных условиях или граничных случаях для определения ее операционных ограничений.
Тесты на чувствительность
Анализ влияния вариаций входных характеристик на прогнозы для понимания стабильности модели.
Внешняя валидация
Тестирование модели на данных из совершенно новых источников или распределений для оценки её способности к обобщению.
Тесты деградации
Непрерывный мониторинг производительности модели в эксплуатации для обнаружения дрейфа данных и временной деградации.