二値分類 - AI用語集

📖

用語

真陽性 (TP)

モデルが実際にポジティブな観測を正しくポジティブと予測した結果で、関心のあるクラスの分類が成功したことを示す。真陽性の数はモデルが関連するケースを正しく識別する能力を評価するために重要である。

📖

用語

偽陽性 (FP)

モデルが実際にはネガティブな観測を誤ってポジティブと予測する分類エラーで、誤警報に相当する。偽陽性は医療診断や詐欺検出などの分野で特にコストが高い。

📖

用語

適合率 (Precision)

真陽性を真陽性と偽陽性の合計で割った比率として計算される指標で、すべてのポジティブ予測の中で正しいポジティブ予測の割合を測る。偽陽性のコストが高い場合に特に重要である。

📖

用語

再現率 (Recall)

感度とも呼ばれ、真陽性を真陽性と偽陰性の合計で割った比率を測定し、モデルがすべての実際のポジティブ観測を識別する能力を評価する。再現率は偽陰性が深刻な結果を招く場合に重要である。

📖

用語

ROC曲線

様々な分類閾値について、真陽性率を偽陽性率に対してプロットしたグラフで、感度と特異性のトレードオフを示す。この曲線の下の面積（AUC）は分類器の全体的なパフォーマンスを定量化する。

📖

用語

ロジスティック回帰

二値分類において、シグモイド関数を使用して連続的な予測を0と1の間の確率にマッピングする一般化線形モデル。この解釈可能なモデルは、二分類問題のベースラインとしてよく使用される。

📖

用語

判定閾値

出力確率を二値予測に変換するために使用される限界値（通常0.5）で、これを上回ると観測はポジティブとして分類される。この閾値を調整することで、適合率と再現率のトレードオフを最適化できる。

📖

用語

クラス不均衡

トレーニングデータセットのあるクラスが他のクラスよりも著しく多く表現されている状況で、モデルを多数派クラスに偏らせる可能性がある。この問題には、オーバーサンプリングやクラスの重み付けなどの特定の技術が必要である。

📖

用語

SMOTE

既存のインスタンス間の補間によって少数派クラスの新しい例を生成する合成過剰サンプリング技術であり、正確な複製なしにクラス分布を均衡させます。SMOTEは不均衡なデータセットでのパフォーマンス向上に特に効果的です。

📖

用語

バイナリ決定木

特徴空間を純粋な領域に分割するためにバイナリ決定の階層構造を使用する分類アルゴリズムで、各葉が予測されたクラスを表します。決定木は高い解釈可能性を提供しますが、過学習の傾向があります。

📖

用語

特異度

真陰性の真陰性と偽陽性の合計に対する比率として計算される測定値で、モデルが負の観測を正しく識別する能力を評価します。特異度は再現率と補完的であり、スクリーニング検査において重要です。

AI用語集