NLP向けアクティブラーニング

📖

用語

NLP向け能動学習

モデルが注釈（アノテーション）に最も有益なテキスト例を知的に選択する学習パラダイムであり、自然言語処理タスクにおける人間によるアノテーションリソースの利用を最適化します。

📖

用語

密度重み付き能動学習

モデルの不確実性と特徴空間における例の密度を組み合わせるアプローチで、データの密度が高い領域に位置する不確実なテキストサンプルを優先します。

📖

用語

プールベース能動学習

アルゴリズムがラベルなしのテキスト例の固定プールを持ち、人間によるアノテーションのために最も有益なインスタンスを反復的に選択するフレームワーク。

📖

用語

ストリームベース能動学習

テキストデータが順次到着し、モデルが後戻りすることなく各インスタンスをアノテーションするか拒否するかをリアルタイムで決定しなければならないパラダイム。

📖

用語

バッチモード能動学習

アノテーションのために複数のテキストサンプルを同時に選択する変種であり、選択されたインスタンスの多様性を維持しながら、人間によるアノテーションプロセスをバッチ単位で最適化します。

📖

用語

シーケンスラベリング向け能動学習

固有表現抽出（NER）や品詞タグ付けなどのシーケンスラベリングタスクのための能動学習の特化版であり、選択はシーケンス全体またはトークンのレベルで行われます。

📖

用語

コアセット選択

選択されたセットが完全なデータセットをよく近似することを保証する理論的なアプローチで、パフォーマンスの保証を伴うNLPの能動学習の文脈でよく使用されます。

📖

用語

アノテーションコストモデリング

サンプル選択プロセスに可変のアノテーションコスト（時間、必要な専門知識）を統合する技術で、NLPプロジェクトにおける費用対効果を最適化します。

📖

用語

低リソース言語のためのアクティブラーニング

利用可能なデータが少ない言語に対するアクティブラーニングの専門的な応用であり、言語的制約に適応した転移および選択戦略を用いる。

📖

用語

事前学習済みモデルを用いたアクティブラーニング

BERTなどの事前学習済み言語モデルとアクティブラーニングを統合し、文脈表現を活用して情報量の多いサンプルの選択を向上させる。

📖

用語

マルチタスクアクティブラーニング

単一のアノテーションセットを用いて複数のNLPタスクを同時に改善する枠組みであり、全タスクにとって有益なサンプルの選択を最適化する。

📖

用語

テキスト分類のためのアクティブラーニング

文書分類タスク向けに特化したアクティブラーニングであり、高次元テキストデータの特性に適応した戦略を用いる。

📖

用語

アクティブラーニングにおけるコールドスタート問題

モデルが信頼できる予測を行うのに十分なラベル付きデータを欠いている初期段階の課題であり、ランダムサンプリングや半教師あり学習などの初期化戦略を必要とする。

AI用語集