AI用語集
人工知能の完全辞典
構造化知識ベース
定義済みのスキーマ(例:ナレッジグラフ、リレーショナルデータベース)に従って整理されたデータの集合で、QAシステムのために事実情報を保存および取得するために使用される。
固有表現抽出(NER)
ナレッジベースを構築するために、非構造化テキストから重要な情報(人名、組織名、薬剤名など)を特定し、分類する自然言語処理(NLP)プロセス。
合成質問生成
既存のドキュメントから質問と回答を自動的に作成し、実データが少ない場合にQAモデルをトレーニングするためのデータ拡張手法。
ナレッジグラフ推論
QAシステムが、ナレッジグラフ内のエンティティ(ノード)間の関係(エッジ)をたどり、組み合わせることで、新しい情報を推論する能力。
クエリ書き換え
あいまいまたは不適切に表現されたユーザーの質問を、情報検索またはナレッジベースへの問い合わせに最適化されたクエリに変換するプロセス。
事実確認(ファクトチェック)
生成された回答の整合性と正確性を、分野の信頼できる情報源と照合して検証するメカニズム。医療や金融などの高リスクなアプリケーションにおいて重要。
特化言語モデル(ドメイン特化LM)
特定のドメイン(例:医学論文、判例)のテキストコーパスで事前トレーニングまたはファインチューニングされた言語モデルで、専門用語をより正確に理解・生成できるようにする。
ハイブリッドQAシステム
それぞれの強みを生かして回答の堅牢性と精度を向上させるために、複数のアプローチ(例:ルールベースの抽出、意味検索、ニューラルモデル)を組み合わせたアーキテクチャ。
回答の説明可能性
QAシステムが単に回答を提供するだけでなく、その回答に至った根拠、ソース、または推論も提供できる能力。これはユーザーの信頼にとって不可欠である。
意味的インデキシング
キーワードではなく、文書の意味や文脈(多くの場合、埋め込み表現を通じて)に基づいて文書を整理する技術。これにより、より関連性の高い検索が可能になる。
情報処理パイプライン
生データをQAシステム用の構造化された検索可能な知識ベースに変換するための、順序立てられた一連のステップ(例:取り込み、クリーニング、固有表現抽出、インデキシング)。
QAデータによるファインチューニング
特定のドメインの質問と回答のペアのデータセットを使用して、事前学習済みの言語モデルを適応させ、質問応答タスクにおけるパフォーマンスを向上させるプロセス。
質問意図の検出
ユーザーが探している情報のタイプ(例:定義、比較、リスト、原因と結果)を分類し、最も適切な検索および回答生成戦略を導くためのもの。