正規化と標準化

📖

用語

ロバストスケーリング

外れ値に対して頑健な分位点を用いた手法で、通常(x - 中央値)/IQR（IQRは四分位範囲）を適用する。このアプローチは、ノイズの多いデータや極端な値が存在する場合でも変換の安定性を維持する。

📖

用語

L1正規化

各値をベクトル内の全値の絶対和で除算するスケーリング手法で、L1ノルムが1になることを保証する。この変換は確率ベースのモデルやスパース表現に特に有用である。

📖

用語

L2正規化

各成分を二乗和の平方根で除算することでベクトルを正規化する手順で、ユークリッドノルムを1に保証する。この技術はSVMやニューラルネットワークなど、ベクトルの大きさに敏感なアルゴリズムにとって不可欠である。

📖

用語

分位点正規化

分位点累積分布関数を使用して、指定された一様分布または正規分布に従うようにデータを変換する非パラメトリック手法。このアプローチは、強い非対称性や多峰性を持つ分布を扱うのに特に効果的である。

📖

用語

ベクトル単位スケーリング

各ベクトルをそのユークリッドノルムで除算する正規化で、多次元空間内で単位長のベクトルを得る。この方法は、コサイン類似度測定やテキスト表現に基づくアルゴリズムにとって重要である。

📖

用語

10進正規化

値を10の累乗で除算して[-1,1]の範囲に収める単純な手法で、小数点前の最大桁数に基づく。この方法は相対的な桁数を維持しながら絶対的な数値スケールを縮小する。

📖

用語

ロバスト標準化

中央値と中央値絶対偏差(MAD)を中心傾向と分散の測定値として使用する標準化の変形版で、外れ値に対する耐性を高める。このアプローチは解釈可能性を維持しながら頑健性を保証する。

📖

用語

対数スケーリング

ゼロ値を扱うために定数cを加えたlog(x + c)を適用する変換で、大きな値のスケールを効果的に圧縮する。この方法はべき乗則に従うデータや右に歪んだ分布を示すデータに特に適している。

📖

用語

順位正規化

データセット内の各値をその正規化された順位で置き換えるノンパラメトリック手法。外れ値の影響を排除し、観測値の相対的な順序のみを保持する。外れ値に対して頑健なアプローチ。

📖

用語

中央値標準化

平均ではなく中央値を中心にデータをセンタリングし、四分位範囲などの頑健な分散尺度で割る手法。非対称分布や外れ値に対してより強い耐性を提供する。

📖

用語

最大絶対値スケーリング

各値を特徴量の最大絶対値で割る単純な手法。符号とゼロを保持しながら値を[-1,1]の範囲に収める。既にセンタリングされているデータやスパースデータに特に効果的。

📖

用語

分散正規化

変数をその分散で割って標準化する手順。これによりスケールに敏感なアルゴリズムにおいて各特徴量の重要性を均等化する。主成分分析やリッジ回帰に特に有用なアプローチ。

📖

用語

変動係数標準化

変動係数（σ/μ）で割ってデータを正規化する高度な手法。異なる平均と分散を持つ変数を比較可能にする。相対的な変動性が絶対的な変動性よりも重要なデータに特に適した技術。

AI用語集