アイソレーションフォレスト

📖

用語

ランダム決定木

各ノードがランダムな分割に基づいて特徴空間を分割し、観測値を段階的に分離するパーティションを作成するランダムに生成されたツリー構造。

📖

用語

異常スコア

ツリー内のパスの長さから計算される定量的なメトリックであり、観測値の異常性の度合いを示します。高いスコアは異常である可能性が高いことを示します。

📖

用語

分離パス

観測値を含む葉に至るまでの根からの分割数であり、異常値は正常なポイントよりも著しく短いパスを示します。

📖

用語

汚染率

データセット内の異常値の予想される割合を推定する重要なパラメータで、通常0.01から0.1の間にあり、分類のしきい値に影響を与えます。

📖

用語

平均パス長

非構造化データに対する分離パスの期待される理論値で、最終計算で異常スコアを正規化するための基準として使用されます。

📖

用語

ランダム特徴分割

各ノードで特徴と分離値をランダムに選択し、特徴分布に関連するバイアスを回避し、異常値の分離を促進します。

📖

用語

正常性スコア

異常スコアを正規化されたスケール（通常0から1の間）に変換し、異なるモデルやデータセット間の解釈と比較を容易にします。

📖

用語

ポイント異常

データの期待される動作から大幅に逸脱する個別の観測値で、アルゴリズム内の短い分離パス長によって簡単に識別できます。

📖

用語

再帰的分割

データ空間をますます小さなサブ領域に分割する反復プロセスで、異常な観測値を効果的に分離する階層構造を作成します。

📖

用語

検出閾値

データセット全体の異常スコア分布から計算され、汚染係数によって決定された限界値で、正常な観測値と異常を分離します。

📖

用語

バウンディングボックス

木の各分割で作成される多次元ハイパー長方形で、パーティションの境界を定義し、分離パスを効率的に計算できるようにします。

📖

用語

局所外乱係数

局所密度に基づく代替的な異常検出メトリックで、さまざまな種類のデータ分布における性能を評価するためにIsolation Forestと比較されることがよくあります。

📖

用語

木の剪定

ノードが1つのサンプルを含むか最大深度に達したときに分割を停止する木の成長を制限する技術で、計算時間を最適化します。

AI用語集