加重密度

📖

用語

モデルの不確実性尺度と局所密度推定を組み合わせる選択手法であり、不確実かつ特徴空間の密な領域に位置するサンプルを優先する。

📖

用語

不確実性サンプリング

モデルが予測に対して最も低い信頼度を示すサンプルを選択する能動学習戦略であり、通常はエントロピーまたは決定マージンによって測定される。

📖

用語

委員会によるサンプリング

複数のモデルで委員会を構成する能動学習のアプローチであり、委員会のメンバー間で最も意見の不一致を引き起こすサンプルがアノテーションのために選択される。

📖

用語

多様性に基づくサンプリング

特徴空間を効果的にカバーし、情報の冗長性を回避するために、アノテーション対象のサンプルの多様性を最大化することを目指す選択戦略。

📖

用語

高密度点

データの集中度が高い特徴空間の領域に位置するサンプルであり、データの基礎となる分布を代表していると見なされる。

📖

用語

相互情報量基準

特定のサンプルをアノテーションした後のモデルパラメータに関する期待される不確実性の低減を測定する、情報の有用性の指標。

📖

用語

信頼度マージン

サンプルに対する最も確度の高い2つのクラスの予測確率の差であり、能動学習戦略における不確実性の指標として使用される。

📖

用語

ハイブリッド選択

最も有益なサンプルを特定するために、重み付けまたは多目的最適化を通じて複数の選択基準（不確実性、密度、多様性）を組み合わせるアプローチ。

📖

用語

アクティブラーニングにおける外れ値

密度ベースの戦略が回避しようとする、非典型的または異常なデータポイント。これらにアノテーションを行っても、データの全体的な構造に関する情報はほとんど得られないためである。

📖

用語

カーネル重み付け

カーネル関数を用いて局所的な密度を推定し、特徴空間における近傍との類似性に基づいてサンプルの重要性を重み付けする手法。

📖

用語

データの代表性

データの全体的な分布の本質的な特徴を捉えるサンプルまたはサブセットの能力（品質）であり、効果的なサンプリング戦略における重要な要素である。

📖

用語

特徴空間

各次元がデータの特徴を表す多次元の領域であり、サンプル間の類似性や密度の関係を分析するために使用される。

📖

用語

密度・不確実性基準

モデルの不確実性尺度と局所的な密度推定を組み合わせたユーティリティ関数であり、各未アノテーションサンプルの情報的ポテンシャルを評価するために用いられる。

📖

用語

多目的最適化

不確実性、密度、多様性といった競合する複数の目的を、能動的学習（アクティブラーニング）の選択戦略において同時に管理するための数学的枠組み。

AI用語集