AI用語集
人工知能の完全辞典
決定木
データの特徴に対する一連のテストを通じて決定とその考えられる結果をモデル化する、木構造を使用した教師あり予測モデル。
根ノード
決定木の開始点で、完全な訓練データセットを表し、最も識別力のある特徴に基づく最初の分割を含む。
内部ノード
特定の特徴に対するテストを表し、データを均質なサブセットに分割する決定木の中間ノード。
葉ノード
最終的な決定またはクラス予測を表し、それ以上の分割が不可能な決定木の終端ノード。
分割基準
決定木での分割の品質を評価するために使用される定量的手法で、結果のサブセットの均質性を最大化することを目指す。
エントロピー
データセット内の無秩序性または不確実性の数学的測定で、決定木でのノードの不純度を定量化するために使用される。
情報利得
特定の特徴に基づいてノードを分割することで得られるエントロピーの減少を測定する指標で、最適な分割を選択するために使用される。
ジニ指数
0から1の範囲で変化する不純度の測定で、ランダムに選択された要素が誤分類される確率を計算し、決定木でのエントロピーの代替として使用される。
枝刈り
過学習を避けるために、予測能力が低い枝を削除して決定木の複雑さを軽減する技術。
過学習
モデルがトレーニングデータの詳細とノイズを過剰に学習し、新しいデータに対する汎化能力が低下する現象。
木の深さ
根ノードから葉までの最大分割数で、モデルの複雑さとバイアスを制御する重要なパラメータ。
CART
分類ではジニ指数を分割基準として使用し、二分木を構築する分類・回帰木アルゴリズム。
ID3
情報利得を分割基準として使用する決定木の初期アルゴリズムで、カテゴリ変数と二分岐に限定される。
C4.5
多数の値を持つ特徴量へのバイアスを避けるために情報利得比を使用するID3アルゴリズムの改良版。
目的変数
教師あり学習問題で予測する変数で、決定木の端末ノードによって表される。
決定ルール
決定木の経路から抽出されるIF-THEN条件の論理的セットで、モデルの予測を解釈・説明できる。
変数の重要度
木全体にわたる分割の純度を向上させる各予測特徴の貢献の定量的測定。
複雑さのコスト
一般化を最適化するために、木のサイズにペナルティを課し、データへの適合とモデルの単純さのバランスを取る枝刈りパラメータ。