Глоссарий ИИ
Полный словарь искусственного интеллекта
Робастное масштабирование
Техника, использующая квантили для устойчивости к выбросам, обычно применяя (x - медиана)/IQR, где IQR представляет межквартильный размах. Этот подход сохраняет стабильность преобразований даже при наличии зашумленных или экстремальных данных.
L1-нормализация
Метод масштабирования, делящий каждое значение на абсолютную сумму всех значений в векторе, гарантируя, что L1-норма равна 1. Это преобразование особенно полезно для вероятностных моделей и разреженных представлений.
L2-нормализация
Процедура нормализации векторов путем деления каждой компоненты на квадратный корень из суммы квадратов, обеспечивая единичную евклидову норму. Эта техника важна для алгоритмов, чувствительных к величине вектора, таких как SVM и нейронные сети.
Квантильная нормализация
Непараметрическая техника, преобразующая данные для следования заданному равномерному или нормальному распределению с использованием функций квантильного распределения. Этот подход особенно эффективен для работы с сильно асимметричными или мультимодальными распределениями.
Масштабирование до единичного вектора
Нормализация, делящая каждый вектор на его евклидову норму, что приводит к векторам единичной длины в многомерном пространстве. Этот метод важен для алгоритмов, основанных на косинусной мере схожести и текстовых представлениях.
Десятичная нормализация
Простая техника, делящая значения на степень 10 для приведения их в интервал [-1,1], основанная на максимальном количестве цифр перед запятой. Этот метод сохраняет относительный порядок величин, уменьшая абсолютный числовой масштаб.
Робастная стандартизация
Вариант стандартизации, использующий медиану и медианное абсолютное отклонение (MAD) как меры центральной тенденции и дисперсии, обеспечивая повышенную устойчивость к выбросам. Этот подход сохраняет интерпретируемость, гарантируя робастность.
Логарифмическое масштабирование
Преобразование, применяющее log(x + c), где c - константа для обработки нулевых значений, эффективно сжимая шкалу больших значений. Этот метод особенно подходит для данных, следующих степенному закону или имеющих правую асимметрию.
Нормализация по рангу
Непараметрическая техника, заменяющая каждое значение его нормализованным рангом в наборе данных, устраняя влияние экстремальных значений. Этот подход устойчив к выбросам и сохраняет только относительный порядок наблюдений.
Стандартизация по медиане
Метод центрирования данных вокруг медианы вместо среднего значения, с делением на устойчивую меру дисперсии, такую как межквартильный размах. Этот подход обеспечивает лучшую устойчивость к асимметричным распределениям и выбросам.
Масштабирование по максимальному абсолютному значению
Простая техника, делящая каждое значение на максимальное абсолютное значение признака, сохраняя знаки и нули, ограничивая значения в диапазоне [-1,1]. Этот метод особенно эффективен для уже центрированных или разреженных данных.
Нормализация по дисперсии
Процедура стандартизации переменных путем деления на их дисперсию, уравнивая таким образом важность каждого признака в алгоритмах, чувствительных к масштабу. Этот подход особенно полезен для анализа главных компонент и гребневой регрессии.
Стандартизация по коэффициенту вариации
Продвинутый метод нормализации данных путем деления на коэффициент вариации (σ/μ), позволяющий сравнивать переменные с разными средними значениями и дисперсиями. Эта техника особенно актуальна для данных, где относительная изменчивость важнее абсолютной изменчивости.