クラスタの検証

📖

用語

シルエット指数

データ点が自身のクラスタ内の他の点との平均距離と、最も近い隣接クラスタ内の点との平均距離を比較することで、クラスタの凝集性と分離性を評価する内部的検証指標。

📖

用語

デイビス-ボールディン・スコア

クラスタ内の分散とクラスタ間の距離の比を最小化する内部的検証指標で、値が低いほどパーティショニングの品質が良いことを示す。

📖

用語

カリンスキー-ハラバッス指数

クラスタ間の分散とクラスタ内の分散の比に基づく評価基準で、値が高いほどクラスタがより明確に定義され、よく分離されていることを示唆する。

📖

用語

平均シルエット係数

データセット内のすべての点の個別のシルエット係数の平均値で、-1から1のスケールでクラスタリング全体の品質を評価するための全体的な指標として機能する。

📖

用語

最適分割

使用されるメトリックに応じて特定の検証基準を最大化または最小化するクラスタの構成で、理論上、可能な限り最良のデータセグメンテーションを表す。

📖

用語

内部的検証

外部の正解ラベルを使用せず、データに内在する情報のみを活用してクラスタリングの品質を測定する評価アプローチ。

📖

用語

外部検証

クラスタリング結果を事前定義されたラベルや基準分類と比較し、得られたパーティショニングの適合性を測定する評価方法。

📖

用語

相対的検証

最適なクラスタ数を決定するなど、異なるクラスタリング解を相互に比較して最適な構成を特定する評価手法。

📖

用語

エルボー法

ヒューリスティックな視覚的手法で、追加のクラスターがもはや大幅な改善をもたらさない変曲点を特定することにより、最適なクラスター数を特定する手法。

📖

用語

ダン指数

クラスター間の最小距離とクラスター内の最大直径との比を計算する内部妥当性指標。高い値はより良い分離を示す。

📖

用語

調整ランド指数

2つのデータ分割間の類似性を測定する指標で、偶然による一致を補正し、2つのクラスタリングで一緒にまたは別々に分類された観測ペアの一致度を評価する。

📖

用語

ジャッカード係数

2つの集合間の類似性を測定する係数で、それらの積集合と和集合との比を計算し、クラスタリング結果を比較するために適用される。

📖

用語

クラスター純度

各クラスターが単一の主要なクラスの要素をどの程度含んでいるかを測定する外部妥当性指標で、1に近い値は純粋なクラスターを示す。

📖

用語

クラスタリングエントロピー

各クラスター内のクラス分布の無秩序さや不確実性を定量化する測度で、低い値はより良い均一性を示す。

📖

用語

安定性スコア

繰り返し実行時や異なるサンプリング条件下での一貫性を測定することにより、クラスタリング解の堅牢性を評価する指標。

📖

用語

クラスター内凝集性

同じクラスター内の要素が互いにどれだけ類似しているか、または近いかを評価するコンパクト性の測度で、通常はクラスター内距離の合計として計算される。

📖

用語

クラスター間分離

異なるクラスター間の孤立度を測定する基準で、個別のグループ間の最小距離、平均距離、またはセントロイド距離によって量化される。

AI用語集