Глоссарий ИИ
Полный словарь искусственного интеллекта
Импутация средним значением
Техника импутации, которая заменяет пропущенные значения средним значением, рассчитанным по доступным наблюдениям той же переменной. Этот простой метод сохраняет общее среднее переменной, но может недооценивать дисперсию.
Импутация медианой
Робастный метод, который заменяет пропущенные значения медианой наблюдаемых значений, особенно подходит для асимметричных распределений. Этот подход минимизирует влияние выбросов по сравнению с импутацией средним значением.
KNN импутация
Алгоритм, который импутирует пропущенные значения на основе k ближайших соседей в пространстве признаков, используя взвешенное среднее значений соседей. Этот метод сохраняет локальные отношения между переменными, но может быть вычислительно затратным.
Множественная импутация
Продвинутый статистический подход, который генерирует несколько импутированных значений для каждого пропущенного наблюдения, отражая неопределенность импутации. Результаты затем объединяются для получения более робастных оценок и валидных доверительных интервалов.
Импутация регрессией
Техника, которая предсказывает пропущенные значения с использованием регрессионной модели на основе других доступных переменных в качестве предикторов. Этот метод захватывает линейные отношения между переменными, но может вносить смещение регрессии к среднему.
EM импутация
Алгоритм Expectation-Maximization, который итеративно оценивает параметры модели и импутирует пропущенные значения, максимизируя правдоподобие. Этот статистический подход особенно эффективен для данных с пропусками при предположении MAR (Missing At Random).
Hot-deck импутация
Метод, который заменяет каждое пропущенное значение наблюдаемым значением от похожего донора, случайно выбранного из того же набора данных. Эта техника сохраняет исходное распределение данных и корреляции между переменными.
Импутация интерполяцией
Техника, используемая в основном для временных рядов, которая оценивает пропущенные значения на основе соседних временных значений (линейная, сплайновая, полиномиальная). Этот метод сохраняет временную непрерывность и основные тенденции.
Импутация MICE
Множественная импутация цепными уравнениями, метод, который импутирует каждую переменную с помощью специфической модели, адаптированной к её природе, итерируя до сходимости. Этот гибкий подход обрабатывает различные типы переменных и сложные отношения.
Импутация дополнительными матрицами
Техника, которая разлагает матрицу данных на матрицы низкого ранга для предсказания пропущенных значений, используя методы типа SVD (сингулярное разложение). Этот подход захватывает латентные структуры в многомерных данных.
Импутация автоэнкодером
Подход глубокого обучения, который обучает нейронную сеть сжимать и затем восстанавливать данные, таким образом обучаясь предсказывать пропущенные значения. Этот метод захватывает сложные нелинейные отношения в данных высокой размерности.
Байесовская импутация
Метод, который использует априорные распределения и теорему Байеса для оценки пропущенных значений, генерируя апостериорные распределения для каждой импутации. Этот подход естественным образом количественно оценивает неопределенность и включает доменные знания.
Импутация MissForest
Непараметрический алгоритм на основе случайных лесов, который импутирует пропущенные значения, используя модели деревьев решений, обученные на полных наблюдениях. Этот метод эффективно обрабатывает нелинейные взаимодействия и различные типы переменных.
Импутация кластеризацией
Техника, которая группирует схожие наблюдения, а затем импутирует пропущенные значения, используя статистики (среднее, медиана) соответствующего кластера. Этот подход сохраняет подлежащие структуры в многомодальных данных.
Импутация цепями Маркова
Метод, который моделирует переходы между состояниями данных для предсказания пропущенных значений на основе предыдущих или следующих состояний в последовательности. Эта техника особенно подходит для последовательных и временных данных.
Импутация деревом решений
Подход, который использует деревья решений для предсказания пропущенных значений, основываясь на правилах сегментации, изученных из полных наблюдений. Этот метод автоматически захватывает нелинейные взаимодействия между переменными.
Импутация методом главных компонент
Метод, основанный на анализе главных компонент, который проецирует данные в пространство пониженной размерности, а затем восстанавливает пропущенные значения. Этот метод эффективен для многомерных данных с сильной корреляционной структурой.
Импутация постоянным значением
Простая стратегия, которая заменяет все пропущенные значения заранее определенной константой (часто 0, -1 или специфическим для домена значением). Этот метод быстрый, но может внести значительное смещение, если константа не выбрана обоснованно.