テキストクラスタリング

📖

用語

K-meansクラスタリング

各ドキュメントを最も近いセントロイドに割り当て、クラスタ内分散を最小化することで、ドキュメントをK個のクラスタに分割する分割アルゴリズム。

📖

用語

階層的クラスタリング

ボトムアップ（凝集型）またはトップダウン（分割型）のアプローチで、入れ子になったクラスタの階層を構築し、デンドログラムで表現するクラスタリング手法。

📖

用語

ジャッカード指数

2つのドキュメント集合間の類似性を、共通部分の集合を和集合の集合で割ることで計算し、測定する類似度係数。

📖

用語

潜在意味解析（LSA）

特異値分解（SVD）を用いて次元を削減し、単語とドキュメント間の潜在的な意味的関係を発見するための手法。

📖

用語

N-gram

テキストにおける連続したn個の要素（単語、文字など）のシーケンス。局所的な文脈を捉え、ドキュメントの意味的表現を向上させるために使用される。

📖

用語

エルボー法

追加のクラスタがクラスタ内分散を大幅に削減しなくなる点を特定することで、最適なクラスタ数を決定するためのヒューリスティックな手法。

📖

用語

凝集型クラスタリング

階層的クラスタリングのボトムアップアプローチ。最も近いクラスタを反復的に統合し、事前に定義された停止基準に達するまで続ける。

📖

用語

ドキュメントクラスタリング

コンテンツの類似性に基づいてドキュメントを自動的にクラスタにグループ化するプロセス。これにより、ドキュメントの整理とテーマ構造の発見が可能になる。

📖

用語

ターム頻度

文書内での用語の出現頻度を正規化した測定値で、ベクトル表現モデルで基本構成要素としてよく使用される。

📖

用語

文書-単語行列

各列が語彙の用語を表し、各セルが関連する重みを含む表形式のデータ構造で、各行がドキュメントを表す。

AI用語集