Глоссарий ИИ
Полный словарь искусственного интеллекта
Отсутствующие Полностью Случайно (MCAR)
Механизм, при котором вероятность отсутствия наблюдения не зависит ни от наблюдаемых данных, ни от отсутствующих данных. Отсутствующие данные представляют собой простое случайное подмножество полного набора данных.
Отсутствующие Случайно (MAR)
Механизм, при котором вероятность отсутствия данных зависит только от наблюдаемых значений, но не от самих отсутствующих значений. Этот паттерн позволяет проводить коррекцию с помощью импутации, условной по наблюдаемым переменным.
Отсутствующие Не Случайно (MNAR)
Механизм, при котором вероятность отсутствия данных напрямую зависит от самих отсутствующих значений. Стандартные методы импутации могут внести значительную систематическую ошибку в этом случае.
Тест Литтла на MCAR
Статистический тест нулевой гипотезы о том, что данные отсутствуют полностью случайно (MCAR). Основан на сравнении средних значений и ковариаций между полными и неполными случаями.
Матрица Паттернов
Бинарная матрица, указывающая наличие (1) или отсутствие (0) данных для каждого наблюдения и переменной. Позволяет визуально идентифицировать сложные структуры отсутствующих данных.
Механизм Отсутствующих Данных
Лежащий в основе процесс, который генерирует отсутствующие данные в наборе данных. Включает три основных механизма: MCAR, MAR и MNAR, каждый из которых требует различных подходов к обработке.
Анализ Полных Случаев
Метод анализа, использующий только наблюдения без каких-либо отсутствующих значений. Прост в реализации, но может привести к значительной потере данных и систематическим ошибкам, если MCAR не выполняется.
Анализ Доступных Случаев
Подход, использующий все доступные данные для каждого статистического расчета, позволяющий иметь различные размеры выборки для разных переменных. Включает методы попарного и списочного удаления.
Монотонный паттерн пропусков
Структура, в которой если переменная отсутствует для наблюдения, то все последующие переменные в предопределенном порядке также отсутствуют. Значительно упрощает методы множественного импутирования.
Корреляция пропусков
Мера ассоциации между паттернами пропущенных данных различных переменных. Сильная корреляция может указывать на механизм MAR или предполагать структурные отношения в данных.
Визуализация пропущенных данных
Набор графических техник (тепловые карты, столбчатые диаграммы, графики паттернов) для исследования и передачи структуры и масштаба пропущенных данных. Необходим для предварительной диагностики.
Анализ уровня ответов
Систематическая оценка уровня ответов по переменным, группам или во времени. Позволяет идентифицировать факторы, связанные с отсутствием ответа, и обнаружить потенциальные смещения.
Диагностика пропущенных данных
Полный процесс оценки характеристик, паттернов и механизмов пропущенных данных перед импутацией. Объединяет статистический анализ и визуализации для выбора подходящего метода обработки.
Произвольный паттерн пропусков
Структура пропущенных данных без определенной организации, где отсутствия могут возникать в любом месте набора данных. Требует более сложных методов импутации, таких как MICE.
Профиль пропущенных данных
Сводный отчет, описывающий распределение, паттерны и характеристики пропущенных данных. Включает описательную статистику и визуализации для общей оценки.