AI用語集
人工知能の完全辞典
固有表現認識 (NER)
非構造化テキストから、人、組織、場所などの事前に定義されたエンティティを特定し分類することを目的とする、自然言語処理(NLP)のサブタスク。
エンティティ抽出
ナレッジベースを強化するために、非構造化テキストデータから特定の構造化された情報(エンティティ)を特定し分離するプロセス。
エンティティタグ付け
テキストから抽出されたエンティティに意味的なラベル(タグ)を関連付ける行為であり、それらの分類や質問応答システムでの利用を可能にする。
エンティティ辞書
有効なエンティティとそのタイプを含むデータベースまたは構造化されたリストであり、QAシステムにおける認識と検証の参照として使用される。
固有表現認識(NER)のための教師あり学習
手動でアノテーションされたテキストコーパスを使用してNERモデルをトレーニングし、エンティティを認識して分類することを学習させるアプローチ。
シークエンス・ツー・シークエンス・モデル (Seq2Seq)
入力シーケンス(テキスト)を処理して出力シーケンス(エンティティラベル)を生成することで、複雑なNERタスクに使用されるニューラルネットワークアーキテクチャ。
コンテキスト埋め込み (ELMo, BERT)
周囲の文脈に基づいて単語の意味を捉える単語のベクトル表現であり、曖昧なエンティティ抽出の精度を大幅に向上させる。
エンティティ正規化
データの一貫性を保証するために、抽出されたエンティティ(例:「火曜日」、「火」などを標準的な形式に変換するなど)を標準化するプロセス。
エンティティリンキング
テキスト中で言及された固有表現を、知識ベース(例:DBpediaやWikidataのURI)内の一意なエントリに紐付けるタスク。
アノテーション付きコーパス
固有表現が事前に人間によって特定され、ラベル付けされたテキストの集合。固有表現認識(NER)モデルの訓練と評価における正解データ(グランドトゥルース)として機能する。
抽出における偽陽性
システムがテキストの一部を関連するエンティティとして誤って識別するエラーであり、質問応答システムの適合率に悪影響を及ぼす。
抽出パイプライン
生のテキストを利用可能な構造化エンティティに変換する、一連のモジュール(トークン化、NER、正規化、リンク付け)の処理フロー。
知識ベース型QAシステム
エンティティと関係の抽出によって構築された構造化された知識ベースに問い合わせることで回答を見つけるタイプの質問応答システム。
ハイブリッド固有表現認識
ルールベースの手法(パターンマッチング)と機械学習モデルを組み合わせるアプローチであり、前者の正確さと後者の柔軟性を両立させることを目的とする。
エンティティの曖昧性解消
同じ文字列が複数の異なるエンティティ(例:都市の「パリ」vs 神話の「パリ」)を指し示す可能性がある場合に、その曖昧性を解決するタスク。
固有表現認識のためのファインチューニング
固有表現認識タスクのために、事前学習済み言語モデル(BERTなど)を特定のコーパスで適応させるプロセス。