AI用語集
人工知能の完全辞典
CFツリー(クラスタリング特徴ツリー)
BIRCHの中核となるツリー構造データであり、サブクラスターをコンパクトに表現するために、ノード内に統計的な要約(クラスタリング特徴)を格納します。
クラスタリング特徴(CF)
サブクラスターを統計的に要約する3つの組(N, LS, SS)です。ここで、Nは点の数、LSは点の線形和、SSは点の二乗和を表します。
直径のしきい値(閾値)
CFツリーのリーフ(葉)内にあるサブクラスターの最大直径を定義するBIRCHのパラメータであり、クラスタリング要約の粒度を制御します。
分岐係数(ブランチングファクター)
CFツリー内のノードあたりのエントリ(子)の数を制限するパラメータであり、パフォーマンスを最適化するためにツリーのサイズと形状に影響を与えます。
マイクロクラスタリング
データポイントがマイクロクラスターに整理されるBIRCHの初期フェーズであり、これらはCFツリーのリーフエントリによって表現されます。
マクロクラスタリング
最終的なクラスタを生成するために、マイクロクラスター(CFツリーのリーフ)に対してクラスタリングアルゴリズム(K-Meansなど)を適用するBIRCHの最終フェーズです。
増分要約
新しいデータポイントを用いてCFツリーを更新する際、最初から完全に再計算することなく行えるBIRCHの機能であり、データストリームに適しています。
CF加法的距離(CF Additive Distance)
2つのクラスタリング特徴間の近接性を測定するためにBIRCHで使用される距離メトリクスであり、元のデータポイントにアクセスせずに、統計的な要約から直接計算することができます。
リーフエントリ (Leaf Entry)
CFツリーのリーフ(葉)の要素であり、マイクロクラスタを表します。クラスタリング特徴(CF)と、リーフ連結リストにおける次のノードへのポインタを含みます。
リーフ連結リスト (Leaf Linked List)
マクロクラスタリング段階における効率的な順次走査を行うために、CFツリー内のすべてのリーフを接続する構造です。
点の吸収 (Point Absorption)
BIRCHにおけるプロセスで、追加しても直径のしきい値を超えない場合、新しいデータポイントが最も近いマイクロクラスタに統合されます。
ノード分割 (Node Splitting)
BIRCHにおいて、ポイントの挿入によって直径のしきい値または分岐係数を超過してしまう場合にトリガーされるメカニズムです。制約を維持するためにノードを分割します。
再構築フェーズ (Rebuilding Phase)
BIRCHにおけるオプションのステップであり、最終段階の前にクラスタリングの精度を高めるために、より低い直径のしきい値を用いてCFツリーを再構築します。
増分計算コスト
BIRCHの主な利点であり、データポイントを挿入するためのコストがポイント数に対して対数的であるため、アルゴリズムのスケーラビリティが非常に高いことを意味します。
クラスタ要約 (Cluster Summary)
BIRCHの基本概念であり、個々のポイントではなく統計的な要約(CF)によってポイントのグループを表現することで、メモリ空間を削減します。