バランスドランダムフォレスト

📖

用語

バランスド・ランダムフォレスト

データの不均衡を扱うために設計されたランダムフォレストの変種で、各クラスが均等に表現されるブートストラップサブサンプルから決定木を作成します。

📖

用語

バランスド・ブートストラップ

各イテレーションで、クラスの均等な表現を保証するようにブートストラップサンプルを抽出するサンプリング技術で、多くの場合、多数派クラスをアンダーサンプリングするか、少数派クラスをオーバーサンプリングすることによって行われます。

📖

用語

多数派クラスのアンダーサンプリング

訓練データセットにおける多数派クラスの優勢性を減らすために、多数派クラスから観測値をランダムに削除するクラス不均衡を軽減する方法です。

📖

用語

少数派クラスのオーバーサンプリング

クラス分布を均衡させるために、複製または新しい合成観測値の生成によって少数派クラスの観測値の数を増やすことを目的とする技術です。

📖

用語

ブートストラップサンプル

バギング法で使用される、元のデータセットから復元抽出されたランダムサンプルで、各アンサンブルモデルをデータのわずかに異なるサブセットで訓練するために使用されます。

📖

用語

ジニスコア

決定木のノードの不純度を測定する指標で、ノードからランダムに選択された観測値がクラス分布に従ってランダムにラベル付けされた場合に誤分類される確率を定量化します。

📖

用語

AUC-ROC (受信者操作特性曲線下の面積)

分類器がクラス間を区別する能力を測定するパフォーマンス指標で、真陽性率を偽陽性率に対してプロットした曲線の下の面積を表します。

📖

用語

EasyEnsemble

多数派クラスの複数のサブセットを作成し、各サブセットと少数派クラスの全体を組み合わせて分類器を訓練し、予測を集約するアンサンブル学習アルゴリズムです。

📖

用語

BalanceCascade

イテレーティブなアンサンブル手法で、データセットが段階的に均衡化されるように順次分類器をトレーニングし、各ステップで正しく分類された多数派クラスの例を適切に削除します。

📖

用語

再現率 (Recall または感度)

モデルによって正しく識別された実際の正の観測値の割合を測定する指標で、少数派クラスでのパフォーマンスを評価するために不可欠です。

AI用語集