教師あり特徴エンジニアリング

📖

用語

特徴量選択

教師あり学習モデルにおいて、冗長または非情報的な変数を排除し、パフォーマンスを向上させ、複雑性を低減するために最も関連性の高い特徴量を自動的に選択するプロセス。

📖

用語

ラベルエンコーディング

カテゴリ変数を整数値に変換する手法で、各一意なカテゴリが個別の数値識別子を受け取り、数値入力を必要とするアルゴリズムに適しています。

📖

用語

特徴量スケーリング

数値特徴量を正規化または標準化して比較可能な範囲に変換するプロセスで、SVMやニューラルネットワークなど変数のスケールに敏感なアルゴリズムにとって不可欠です。

📖

用語

多項式特徴量

既存の変数から多項式の組み合わせを作成して新しい特徴量を生成し、特徴量とターゲット変数間の非線形関係を捉えることができます。

📖

用語

交互作用特徴量

既存の特徴量間の交互作用を表現する新しい変数を生成し、通常は乗算や組み合わせによって教師ありデータにおける相乗効果を明らかにします。

📖

用語

再帰的特徴量選択

モデルを構築し、特定の基準に基づいて最も重要でない特徴量を削除し、最適な特徴量数に達するまでこのプロセスを繰り返す反復的選択アルゴリズムです。

📖

用語

ターゲットエンコーディング

各カテゴリについてターゲット変数の統計量（平均、中央値）を使用してカテゴリ変数を変換する手法で、予測との関係を直接的に捉えます。

📖

用語

特徴量の重要度

置換重要度、SHAP値、モデル係数などの手法で計算される、教師あり学習モデルの予測に対する各特徴量の影響の定量的測定。

📖

用語

主成分分析

線形次元削減手法で、特徴を無相関の直交成分に変換し、削減された次元数で説明される分散を最大化する。

📖

用語

ビニング/離散化

連続変数を離散的なカテゴリー（ビン）に変換するプロセスで、関係性の単純化、外れ値の処理、一部の教師ありアルゴリズムの性能向上に役立つ。

📖

用語

特徴量ハッシュ化

特徴量にハッシュ関数を適用して固定次元の空間にマッピングする次元削減技術で、多くのカテゴリーを持つ高次元データに有用。

📖

用語

欠損値補完

教師ありデータの完全性を維持するために、特徴量の欠損値を適切な推定値で置き換える統計的・アルゴリズム的戦略の集合。

📖

用語

特徴量クロス

特定の相互作用を表す新しい特徴量を作成するための特徴量の組み合わせで、非加法的関係を捉えるのに特に線形モデルで効果的。

📖

用語

特徴量エンジニアリングパイプライン

クリーニング、作成、選択、スケーリングを統合し、学習と予測間の一貫性を保証する特徴量に対する自動化・再現可能な変換シーケンス。

📖

用語

ドメイン特化特徴量作成

ビジネス専門知識とドメイン知識に基づいて特徴量を開発し、生データでは明白でない特定のパターンを捉える情報量の高い変数を作成する。

📖

用語

時系列特徴量エンジニアリング

ラグ特徴量、移動統計、時間的成分、季節的傾向など時系列データに特化した特徴量を作成し、時系列的な教師あり予測を向上させる。

AI用語集