テキスト分類

📖

用語

テキストドキュメントをそのセマンティックな内容に基づいて、1つ以上の定義済みカテゴリに自動的に割り当てる自然言語処理のタスク。

📖

用語

二項分類

モデルが正/負や0/1のように、通常2つの相互に排他的なクラスから選択しなければならない分類タイプ。

📖

用語

多クラス分類

各インスタンスを3つ以上の相互に排他的なクラスのうち正確に1つに割り当てる必要がある分類問題。

📖

用語

多ラベル分類

ドキュメントが複数の非排他的なラベルまたはカテゴリに同時に関連付けられる可能性がある分類の変種。

📖

用語

ナイーブベイズ

特徴間の条件付き独立性の仮説に基づき、ベイズの定理を用いる確率的分類アルゴリズム。

📖

用語

SVM（サポートベクターマシン）

マージンを最大化することにより、高次元空間でクラスを分離する最適な超平面を見つける教師あり学習アルゴリズム。

📖

用語

Bag-of-Words（バッグ・オブ・ワーズ）

単語の出現回数を数えるだけで、その順序や文法的な文脈を考慮しないテキスト表現。

📖

用語

TF-IDF（ティーエフ・アイディーエフ）

用語頻度と逆文書頻度を組み合わせ、コーパス内のドキュメントにおける単語の重要性を評価する統計的指標。

📖

用語

単語埋め込み

単語を連続的な空間で密なベクトルとして表現し、単語間の意味的な距離を保持する手法。

📖

用語

トランスフォーマー

アテンション機構に基づくニューラルネットワークのアーキテクチャで、系列内の長距離の依存関係を捉えることができる。

📖

用語

混同行列

分類器の予測を真のラベルとクラスごとに比較し、性能を視覚化するための表。

📖

用語

クロスバリデーション

データを複数のサブセットに分割し、異なる分割でモデルを複数回訓練・テストする堅牢な評価手法。

📖

用語

適合率

モデルが行ったすべての正の予測のうち、正しく予測された正のサンプルの割合を測定する指標。

📖

用語

再現率

データセット内のすべての実際の正のインスタンスを正しく識別するモデルの能力を評価する指標。

📖

用語

F1スコア

適合率と再現率の調和平均で、分類性能のバランスの取れた単一の指標を提供する。

📖

用語

過学習

モデルが訓練データに過度に特化して学習し、未知の新しいデータへの汎化性能が低下する現象。

📖

用語

トークン化

テキストを分析のために、単語、サブワード、文字などの基本的な単位（トークン）に分割するプロセス。

📖

用語

ステミング

接尾辞と接頭辞を削除することによって、単語を形態論的語幹に還元するテキスト正規化技術。

📖

用語

レンマ化

形態論的分析と辞書を使用して、単語を標準形（レンマ）に変換する言語学的プロセス。

AI用語集