Управление пропущенными значениями

📖

термины

Импутация средним значением

Техника импутации, которая заменяет пропущенные значения средним значением, рассчитанным по доступным наблюдениям той же переменной. Этот простой метод сохраняет общее среднее переменной, но может недооценивать дисперсию.

📖

термины

Импутация медианой

Робастный метод, который заменяет пропущенные значения медианой наблюдаемых значений, особенно подходит для асимметричных распределений. Этот подход минимизирует влияние выбросов по сравнению с импутацией средним значением.

📖

термины

KNN импутация

Алгоритм, который импутирует пропущенные значения на основе k ближайших соседей в пространстве признаков, используя взвешенное среднее значений соседей. Этот метод сохраняет локальные отношения между переменными, но может быть вычислительно затратным.

📖

термины

Множественная импутация

Продвинутый статистический подход, который генерирует несколько импутированных значений для каждого пропущенного наблюдения, отражая неопределенность импутации. Результаты затем объединяются для получения более робастных оценок и валидных доверительных интервалов.

📖

термины

Импутация регрессией

Техника, которая предсказывает пропущенные значения с использованием регрессионной модели на основе других доступных переменных в качестве предикторов. Этот метод захватывает линейные отношения между переменными, но может вносить смещение регрессии к среднему.

📖

термины

EM импутация

Алгоритм Expectation-Maximization, который итеративно оценивает параметры модели и импутирует пропущенные значения, максимизируя правдоподобие. Этот статистический подход особенно эффективен для данных с пропусками при предположении MAR (Missing At Random).

📖

термины

Hot-deck импутация

Метод, который заменяет каждое пропущенное значение наблюдаемым значением от похожего донора, случайно выбранного из того же набора данных. Эта техника сохраняет исходное распределение данных и корреляции между переменными.

📖

термины

Импутация интерполяцией

Техника, используемая в основном для временных рядов, которая оценивает пропущенные значения на основе соседних временных значений (линейная, сплайновая, полиномиальная). Этот метод сохраняет временную непрерывность и основные тенденции.

📖

термины

Импутация MICE

Множественная импутация цепными уравнениями, метод, который импутирует каждую переменную с помощью специфической модели, адаптированной к её природе, итерируя до сходимости. Этот гибкий подход обрабатывает различные типы переменных и сложные отношения.

📖

термины

Импутация дополнительными матрицами

Техника, которая разлагает матрицу данных на матрицы низкого ранга для предсказания пропущенных значений, используя методы типа SVD (сингулярное разложение). Этот подход захватывает латентные структуры в многомерных данных.

📖

термины

Импутация автоэнкодером

Подход глубокого обучения, который обучает нейронную сеть сжимать и затем восстанавливать данные, таким образом обучаясь предсказывать пропущенные значения. Этот метод захватывает сложные нелинейные отношения в данных высокой размерности.

📖

термины

Байесовская импутация

Метод, который использует априорные распределения и теорему Байеса для оценки пропущенных значений, генерируя апостериорные распределения для каждой импутации. Этот подход естественным образом количественно оценивает неопределенность и включает доменные знания.

📖

термины

Импутация MissForest

Непараметрический алгоритм на основе случайных лесов, который импутирует пропущенные значения, используя модели деревьев решений, обученные на полных наблюдениях. Этот метод эффективно обрабатывает нелинейные взаимодействия и различные типы переменных.

📖

термины

Импутация кластеризацией

Техника, которая группирует схожие наблюдения, а затем импутирует пропущенные значения, используя статистики (среднее, медиана) соответствующего кластера. Этот подход сохраняет подлежащие структуры в многомодальных данных.

📖

термины

Импутация цепями Маркова

Метод, который моделирует переходы между состояниями данных для предсказания пропущенных значений на основе предыдущих или следующих состояний в последовательности. Эта техника особенно подходит для последовательных и временных данных.

📖

термины

Импутация деревом решений

Подход, который использует деревья решений для предсказания пропущенных значений, основываясь на правилах сегментации, изученных из полных наблюдений. Этот метод автоматически захватывает нелинейные взаимодействия между переменными.

📖

термины

Импутация методом главных компонент

Метод, основанный на анализе главных компонент, который проецирует данные в пространство пониженной размерности, а затем восстанавливает пропущенные значения. Этот метод эффективен для многомерных данных с сильной корреляционной структурой.

📖

термины

Импутация постоянным значением

Простая стратегия, которая заменяет все пропущенные значения заранее определенной константой (часто 0, -1 или специфическим для домена значением). Этот метод быстрый, но может внести значительное смещение, если константа не выбрана обоснованно.

Глоссарий ИИ

Импутация средним значением

Импутация медианой

KNN импутация

Множественная импутация

Импутация регрессией

EM импутация

Hot-deck импутация

Импутация интерполяцией

Импутация MICE

Импутация дополнительными матрицами

Импутация автоэнкодером

Байесовская импутация

Импутация MissForest

Импутация кластеризацией

Импутация цепями Маркова

Импутация деревом решений

Импутация методом главных компонент

Импутация постоянным значением

Результаты не найдены